以他们四个人的输出文字转WAV音频