直接传递给到了混乱的口中文字转WAV音频