但是后面的训练只会更严格文字转WAV音频