或许就是因为我们在研究的过程中完全抛弃了文字转WAV音频