然后根据我报的坐标方位计算文字转WAV音频