似乎要从周围围观的人群中获得支持文字转WAV音频