他们主要做了两个动作文字转WAV音频