很显然现场分成了两类人文字转WAV音频