视频修复在媒体行业至关重要,旨在恢复受损内容。然而,当前方法依赖于有限的像素传播或单分支图像修复架构,在处理完全遮挡的对象、平衡背景保留与前景生成以及保持长视频中的身份一致性方面面临挑战。为了解决这些问题,腾讯提出了VideoPainter,一种高效的双分支框架,采用轻量级上下文编码器。无论是视频修复还是视频编辑任务,VideoPainter在生成长视频(Any Len.)时均能保持强身份一致性(ID Consistency),提供高质量且连贯的视觉效果。(链接在文章底部)
VideoPainter支持即插即用的文本引导视频修复与编辑,适用于任意长度的视频,并可与预训练的扩散变换器结合使用,通过处理遮挡视频和视频字幕(用户编辑指令)实现编辑。它在多种视频修复场景下表现卓越,包括物体修复、风景修复、人物修复、动物修复、多区域修复(Multi)以及随机遮挡修复。同时,在视频编辑任务中,VideoPainter可用于添加、移除、更改属性及对象替换等操作。
01 技术原理
非生成方法仅通过从背景传播像素或像素特征来进行修复,由于缺乏足够的背景上下文信息,无法完整修复完全被分割遮挡的物体。生成方法通过添加时序注意力将单分支图像修复模型适配到视频中,但难以在一个模型中同时保持背景的一致性并生成前景内容。
相比之下VideoPainter实现了即插即用的文本引导视频修复与编辑,适用于任意长度视频和任何预训练的扩散变换器(Diffusion Transformer),输入包括遮挡视频和视频字幕(用户编辑指令)。
VideoPainter包含以下两个核心组件:高效的即插即用双分支框架,其中包括一个轻量级的背景上下文编码器。ID 重采样技术,用于保持修复区域的ID 一致性。
双流范式VideoPainter引入了一个高效的上下文编码器(仅占主干网络参数的 6%),用于处理被遮挡的视频,并向任何预训练的 Video DiT 注入与主干网络相关的背景上下文信息,从而以即插即用的方式生成语义一致的内容。
这种架构上的分离显著降低了模型的学习复杂度,同时实现了对关键背景信息的细腻融合。此外,提出了一种新的目标区域 ID 重采样技术,使得视频修复可以适用于任意长度的视频,从而大大增强了其实际适用性。
同时,构建了一条可扩展的数据集管线,利用当前的视觉理解模型,贡献了VPData和VPBench,用于基于分割的修复训练与评估。这是迄今为止规模最大的视频修复数据集和基准,涵盖超过 39 万个多样化视频片段。
02 演示效果
https://arxiv.org/pdf/2503.05639
https://github.com/TencentARC/VideoPainter欢迎交流~,带你学习AI,了解AI
热门跟贴