然后通过CGI合成到真实拍摄的素材画面当中文字转WAV音频