我还是倾向于优先提供技术文字转WAV音频