汇合后的两方人文字转WAV音频