更像是在保持自己的状态文字转WAV音频