重点是他的话语之中文字转WAV音频