显然从两个人的对话之中文字转WAV音频