而是把摄像头对准我们俩文字转WAV音频