捕捉着镜头文字转WAV音频