而是对着拍摄者从双方的对话来看文字转WAV音频