其中一个是正常人的体型文字转WAV音频