我觉得你需要系统和有目的的训练文字转WAV音频