根据半智能体实时检测文字转WAV音频