现有的Omnimatte方法通常假设背景是静态的,或者物体的姿态和深度估计是准确的。但在这些假设不成立时,现有方法的效果就会很差。另外,由于缺乏针对自然视频的生成性先验,现有方法无法处理动态遮挡区域的恢复问题。为了应对这些挑战,谷歌提出一种新的视频分解方法,旨在解决“Omnimatte”问题。(链接在文章底部)
这种方法可以将视频分解成有意义的层次,每个层次包含独立的物体以及它们的相关效果,如阴影和反射。Generative Omnimatte方案不需要假设场景静止,也不需要摄像头姿态或深度信息,能够产生干净、完整的分层,包括对动态遮挡区域的可信补全。在许多日常拍摄的视频中,成功地进行高质量的分解和编辑,尤其是处理软阴影、光滑反射、溅水等效果时,表现尤为出色。
01 技术原理
给定一个输入视频和对应的物体二值化遮罩,首先用物体效果移除模型“Casper”进行处理。它会生成一个没有任何物体的干净背景(称为清板背景),以及根据不同的三分遮罩条件生成一组单独的物体视频(也就是每个视频只包含一个物体)。三分遮罩会指定要保留的区域(白色)、需要移除的区域(黑色)和可能含有不确定物体效果的区域(灰色)。
在第二阶段,会进行一种测试时优化,从单物体视频和背景视频的组合中,重建出最终的“全景遮罩层” O i 。换句话说,这一步是把各个物体的动态信息单独提取出来。
对输入视频使用不同的三分遮罩条件,生成一组单独的物体视频(每个视频只包含一个物体)和一个没有任何物体的干净背景视频(底部一排展示的结果)。需要注意的是,并没有特意挑选随机种子来优化“Casper”模型的效果。对于所有输入视频,都统一使用相同的随机种子(=0)。
提出的三掩模明确定义了要删除或保留的区域,从而能够更准确地处理多对象场景。相比之下,在二元掩码上训练的模型很容易出现歧义,可能会导致本应保留的对象被意外删除。
移除模型可能并不总是产生期望的结果,特别是在具有挑战性的多对象情况下。
在某些情况下,Casper会将无关的动态背景效果,比如示例中的海浪,错误地关联到前景层。为了解决这个问题,Generative Omnimatte系统允许用户调整三分遮罩,通过指定一个粗略的保留区域,更好地保留背景中的海浪效果。
02 对比与实际效果
与现有的全景遮罩方法(如Omnimatte、Omnimatte3D、OmnimatteRF和FactorMatte)进行了对比。现有方法通常依赖于严格的运动假设,例如背景必须是静止的,因此动态背景元素容易与前景物体层混在一起。
Omnimatte3D和OmnimatteRF由于依赖3D感知的背景表示,对相机姿态估计的准确性非常敏感,这可能导致生成的背景层出现模糊(例如马的例子)。此外,这些方法缺乏生成式和语义先验,无法很好地完成被遮挡的像素,也难以准确地将效果与对应的物体关联起来。
将对象效果移除模型Casper与现有的对象移除方法进行了对比。视频修复模型(如ProPainter和Lumiere-Inpainting)在移除输入遮罩以外的柔和阴影和反射时表现不佳。ObjectDrop是一种基于图像的模型,因此它对视频的每一帧单独处理,缺乏整体的全局上下文和时间一致性。
https://arxiv.org/pdf/2411.16683
欢迎交流~,带你学习AI,了解AI
热门跟贴