也可以说是三人互相监视文字转WAV音频