依着周围环境文字转WAV音频