从两人的对话和表情来看文字转WAV音频