是通过这一系列的事情分析而来的文字转WAV音频