比较麻烦的就是他们的面目文字转WAV音频