并且自发地试图融合文字转WAV音频