因此他说话的时候后面跟着的人都没有插嘴文字转WAV音频