还是在训练上文字转WAV音频