所以他们一定会给文字转WAV音频