二就是上传感器来捕捉动作文字转WAV音频