一个双方都能够接受的缓冲带文字转WAV音频