实际上却是站在原地守候文字转WAV音频