他们完全可以借鉴文字转WAV音频