基本上控制了文字转WAV音频