并把他嘴里的文字转WAV音频