这个解释几乎就可以成立了文字转WAV音频