而当镜头再次扫便全场时文字转WAV音频