由于是在大堂近距离拍摄的视频文字转WAV音频