因为当下几个人的状态就是比较虚弱文字转WAV音频