他自然能判断出刚刚发生了什么文字转WAV音频