明显是在等自己先开口文字转WAV音频