就是有两方或者两方的以上参与文字转WAV音频