所以那番对话应该是真的文字转WAV音频