他们之前一直都是被动文字转WAV音频