因为这是通过语音视频传输的文字转WAV音频