实际上就是吸收迷雾的过程文字转WAV音频