关键是状态还没有彻底回归文字转WAV音频