我现在做的只是一个机械性的动作文字转WAV音频