3D 数据包含完整的几何结构和相机信息,非常适合用来训练 3D 模型。然而,获取这些数据耗时又昂贵,导致数据集很难扩大规模。如果能摆脱对 3D 标注的依赖,就可以大大扩展训练数据的范围。为此想到,视频天然包含多视角的相关信息和相机运动的数据,能揭示 3D 结构。而且,视频资源丰富、易获取且高度可扩展。基于这一点,智源研究院提出了“看视频,得 3D”(See Video, Get 3D)的概念,希望通过视频中的多视角信息,让模型像人类一样学习和推断物理世界的 3D 结构,而不是直接去建模几何形态。(链接在文章底部)

See3D 是一种视觉条件下的多视角扩散模型,专为开放世界的 3D 创作而设计。将 See3D 集成到一个基于图像变形的生成框架中,提出了一种全新的视觉条件 3D 生成方法,实现了高保真的 3D 生成效果。还可以自然支持其他基于图像的 3D 创作任务,比如 3D 编辑,而且不需要额外的微调。

01 技术原理

为大规模视频标注相机位置非常昂贵,而如果没有明确的3D几何信息或相机标注,想从视频中学到通用的3D知识更是难上加难。为了解决这个问题,See3D引入了一种全新的视觉条件:通过给视频的遮挡区域添加与时间相关的噪声,生成一个纯粹的2D视觉信号。

打开网易新闻 查看精彩图片

这种信号就像是提供了额外的视觉提示,支持对多视角扩散模型(MVD)进行更高效的训练。最关键的是,这个方法完全不需要依赖相机的位置信息,而是通过“纯视觉线索”来获取3D效果!

See3D学到的3D“先验知识”可以用在很多3D创作场景,比如从单张图片生成3D模型、用少量视角重建3D结构,以及在开放世界中对3D内容进行编辑。它还能在物体和场景层面上,支持沿着复杂相机轨迹生成长时间的连续视角,让画面动起来更自然、更灵活!

经过实验和对比,See3D在单视角和稀疏视角重建任务中表现出色,不仅能在零样本(zero-shot)和开放世界生成方面脱颖而出,还大幅超越了依赖昂贵3D数据集训练的模型。

02 演示效果

给定 3 个视图作为输入,See3D 可以从灵活的角度生成多视图图像。以下结果由 3D Gaussian Splatting 渲染。

See3D 实现单视图 3D 生成,给定一张图像,模型生成一个逼真的 3D 场景,即“输入一张图像,得到一个 3D 世界”。

See3D还支持根据文本提示从单个虚拟图像生成虚拟3D场景。

https://github.com/baaivision/See3D
https://arxiv.org/pdf/2412.06699

欢迎交流~,带你学习AI,了解AI