当然准确的说是多了一个步骤文字转WAV音频