最佳的状态就是文字转WAV音频