所以我认为他需要强化训练文字转WAV音频