很多的理论研究……然后文字转WAV音频