其实是感知四周围的空间文字转WAV音频