所有的信息都在他们口中文字转WAV音频