这件事情只是他的推测文字转WAV音频