最近,扩散模型的进展显著提升了视频生成和编辑能力。然而,多层次的视频编辑,包括类别级、实例级和部分级的修改,仍然是一个巨大的挑战。多层次编辑的主要难点包括文本到区域控制的语义不匹配和扩散模型中的特征耦合。为了解决这些难题,悉尼科技大学提出了VideoGrain,这是一种零样本方法,通过调节时空(交叉和自我)注意力机制来实现对视频内容的精细控制。(链接在文章底部)
VideoGrain通过增强每个局部提示对其对应空间解耦区域的注意力,同时最小化与无关区域的交叉注意力干扰,来增强文本到区域控制。此外,VideoGrain通过增加区域内的感知度并减少区域间的干扰,改进了自我注意力中的特征分离。VideoGrain方法在现实场景中达到了最先进的性能,给视频编辑带来了全新的高度。
01 技术原理
最近,Text-to-Image (T2I) 和 Text-to-Video (T2V) 扩散模型的进展使得通过自然语言提示进行视频操作成为可能。在实际应用中,基于文本提示使用户能够以不同的粒度编辑区域提供了更大的灵活性。
为此,VideoGrain引入了一项新的任务—多层次视频编辑,该任务包括类别级、实例级和部分级的编辑。类别级编辑指的是修改同一类别内的物体;实例级编辑则是将不同实例编辑成不同的物体;而部分级编辑更进一步,要求在部分级别添加新物体或修改现有物体的属性。
(1)将ST-Layout Attn集成到冻结的SD模型中,实现多层次编辑,在此过程中,以统一的方式调节自注意力和交叉注意力。 (2) 在交叉注意力中,将每个局部提示及其位置视为正样本对,而将提示与外部区域视为负样本对,从而实现文本到区域的控制。 (3) 在自注意力中,增强了区域内正样本的感知度,并限制了跨帧区域间的负交互,使每个查询仅关注目标区域,从而保持特征分离。
02 演示效果
在涵盖类别级、实例级和部分级编辑的视频上评估了VideoGrain。VideoGrain方法在处理动物方面表现出色,例如将“狼”转变为“猪”。
对于实例级编辑,VideoGrain可以分别修改不同的车辆(例如,将“SUV”转变为“消防车”,将“面包车”转变为“校车”)。VideoGrain在复杂且遮挡的场景中编辑多个实例时表现优异,例如“蜘蛛侠和神奇女侠在打羽毛球”。
以往的方法往往在这种非刚性运动下表现不佳。此外,VideoGrain方法还能够进行多区域编辑,在前景和背景都进行编辑,例如在肥皂箱场景中,背景被更改为“森林中的湖泊上的苔藓石桥”。得益于精确的注意力权重分配,VideoGrain可以无缝地交换身份,例如在慢跑场景中,“钢铁侠”和“蜘蛛侠”交换了身份。
对于部分级编辑,VideoGrain在调整角色穿上超人套装的同时保持太阳镜完好无损方面表现出色。总的来说,针对多层次编辑,VideoGrain展现了卓越的性能。
https://arxiv.org/pdf/2502.17258
https://github.com/knightyxp/VideoGrain欢迎交流~,带你学习AI,了解AI
热门跟贴