Diffusion Transformer 在生成高质量图像和视频方面展现出了强大的能力和可扩展性。在图像内容创作领域,进一步推进生成与编辑任务的统一已取得了显著进展。然而,由于视频合成在时间和空间动态上的一致性要求,实现统一的方法仍然面临挑战。因此,阿里提出VACE,这是一款集视频创作与编辑于一体的全能框架。VACE 作为一个统一模型,在多个子任务上的表现可与任务专用模型媲美。(链接在文章底部,暂未完全开源,很快)
它涵盖了多个任务,包括参考生成视频(R2V)、视频编辑(V2V)以及遮罩视频编辑(MV2V),用户可以自由组合这些任务。这一功能使用户能够探索多种可能性并高效优化工作流程。VACE 提供了一系列强大能力,例如“任意移动”(Move-Anything)、“任意替换”(Swap-Anything)、“任意参考”(Reference-Anything)、“任意扩展”(Expand-Anything)、“任意动画”(Animate-Anything)等。
01 技术原理
VACE 被设计为一个多模态到视频生成模型,其中文本、图像、视频和掩码集成到一个统一的条件输入中。为了涵盖尽可能多的视频生成和编辑任务,对现有任务进行了深入研究,然后根据每个任务对多模态输入的不同要求将其分为四类。在保持一般性的同时,为每个类别在视频条件单元(VCU)范式下专门设计了一种新的多模态输入格式。最终,重构了 DiT 模型以适应 VCU 输入,使其成为一个适用于各种视频任务的多功能模型。
尽管现有的视频任务在用户输入的复杂性和创意目标上有所不同,但大多数任务的输入可以通过四种模态—文本、图像、视频和掩码充分表示。因此,根据这四种多模态输入的需求,将这些视频任务划分为五个类别:
文本到视频生成(T2V)是一种基本的视频创建任务,仅需文本输入即可生成视频。参考到视频生成(R2V)则需要额外的图像作为参考输入,以确保特定内容(如面部、动物或其他物体)准确呈现在生成的视频中。视频到视频编辑(V2V)允许对提供的视频进行整体修改,例如上色、风格化或可控生成,使用视频控制信号(如深度、灰度、姿态、涂鸦、光流和布局)进行调整,但方法不限于这些信号。掩码视频到视频编辑(MV2V)则专注于对视频中特定的三维兴趣区域(3D ROI)进行更改,并无缝融合未更改的区域,适用于图像修复或扩展视频等任务。此外,这些任务可以进行任意组合,以满足更复杂的视频生成和编辑需求。
VACE 框架概述:帧和掩码通过概念解耦、上下文潜在编码和上下文嵌入器进行标记化。为了实现以 VCU 作为输入的训练,采用了两种策略:(a) 完全微调和 (b) 上下文适配器微调。后者收敛速度更快,并且支持可插拔特性。
02 演示效果
组合任何内容:VACE创造性地提供了一个单一模型,用于视频生成和编辑,允许用户探索多种可能性并有效简化工作流程,提供包括移动任何物体、交换任何物体、参考任何物体、扩展任何物体、动画任何物体等功能。
视频重新渲染:VACE可以执行视频重新渲染,包括内容保留、结构保留、主体保留、姿态保留和动作保留等。(注意:原始视频位于顶部,生成的视频位于底部)
https://github.com/ali-vilab/VACE
https://arxiv.org/pdf/2503.07598欢迎交流~,带你学习AI,了解AI
热门跟贴