可以为用户提供视频图像文字转WAV音频