为了验证他们的推断文字转WAV音频