就是对答时呼吸粗重了些文字转WAV音频