最终还是低声道文字转WAV音频