智猩猩AI整理

编辑:六六

视频世界模型旨在模拟动态的真实世界环境,然而现有方法难以对相机及多对象运动提供统一且精确的控制,因为视频本质上是在投影的二维图像平面中运作动态。

为弥补这一差距,复旦大学和腾讯PCG等研究团队联合提出了VerseCrafter——一个具备4D感知能力的视频世界模型,能够在统一的4D几何世界状态下实现对相机与对象动态的显式、连贯控制。

该模型提供显式的4D几何控制状态,该状态基于共享世界坐标系下的静态背景点云与逐对象3D高斯轨迹构建。与现有可控视频生成器及世界模型相比,VerseCrafter展现出更优的视觉质量与更精确的3D控制能力,彰显了4D几何控制作为动态世界模拟与编辑未来研究的一个极具前景的接口。

打开网易新闻 查看精彩图片

论文标题:VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

  • 论文链接:https://arxiv.org/pdf/2601.05138

  • GitHub:https://github.com/TencentARC/VerseCrafter

  • HuggingFace:https://huggingface.co/TencentARC/VerseCrafter

  • 项目主页:https://sixiaozheng.github.io/VerseCrafter_page/

  • 01

    方法

    研究团队提出的几何驱动的视频世界模型VerseCrafter将显式的4D几何世界状态映射为动态、逼真的视频,并实现对相机及多对象运动的解耦控制。VerseCrafter模型架构如图 1 所示。

    打开网易新闻 查看精彩图片

    图 1 VerseCrafter 框架概述。给定输入图像与文本提示,首先通过深度估计并获取用户指定的对象掩码,构建一个由静态背景点云与共享世界坐标系下的逐对象 3D 高斯轨迹组成的 4D 几何控制状态。该状态被渲染为每帧的背景 RGB/depth、3D高斯轨迹 RGB/depth 以及软控制 mask,共同构成多通道4D控制图。控制图经编码后输入至所提出的 GeoAdapter,该模块与来自 umT5 的文本嵌入共同对冻结的 Wan2.1-14B 视频扩散主干网络进行条件控制,从而实现具有精确相机及多对象运动控制的几何一致视频生成。1. 4D几何控制

    视频世界模型的状态被表示为一个4D几何世界状态,称之为4D几何控制。这是一个显式、可编辑的状态,由静态背景点云 与逐对象3D高斯轨迹 构成,所有元素均定义在一个共享的世界坐标系中。

    (1)背景点云

    首先,利用单目深度估计模型(MoGe2)获取场景深度,并结合开放词汇实例分割模型(Grounded SAM2)得到用户指定的对象掩码。基于输入的相机内参与初始帧外参,系统将每个像素根据其深度值反投影至三维空间,形成初始点云。

    随后,依据对象掩码将此点云分割为两部分:归属于各动态对象的点集,以及剩余的静态背景点云。

    在生成过程中,第 帧的背景通过使用相机位姿渲染 获得,从而实现将视角变化转化为固定3D世界中的刚性相机运动,而非在每一帧生成新的背景。

    (2)3D高斯轨迹

    世界坐标系中的一个3D高斯分布 紧凑地编码了一个对象的位置(通过均值 )、近似形状与大小(通过 的特征值)以及朝向(通过其特征向量)。对象 的3D高斯轨迹则定义为一系列高斯分布的序列:

    打开网易新闻 查看精彩图片

    这种概率化的描述以柔和、连续的方式刻画了对象的3D占据情况,并产生了一个比刚性3D边界框更灵活、比参数化人体模型更与类别无关的紧凑控制空间。

    为了初始化每个可控对象 的轨迹,将全协方差高斯分布拟合到上一步得到的点云 ,由此得到初始高斯分布 。

    打开网易新闻 查看精彩图片

    实践中,将每个 转换为椭球体网格,以便在如Blender等3D编辑器中可视化,并允许用户通过在三维空间中拖拽和设置关键帧来指定或优化该椭球体的轨迹。编辑后的位姿和形状被映射回 作为控制信号。椭球体仅为用户界面;模型使用的所有条件图均直接从底层的3D高斯分布渲染生成。

    (3)渲染4D控制图

    给定4D几何控制,在目标相机视图中逐帧渲染条件图。对于每一帧 ,生成三种类型的图像:

    • 背景 、 和 ,通过使用相机位姿 投影静态点云 获得。

    • 3D高斯轨迹 、 和 ,通过将逐对象的高斯分布 投影为软性椭圆足迹,并从对应的椭球表面获取深度值获得。

    • 软控制掩码 ,用于指示扩散模型应合成或覆盖内容的区域,通过反转有效的背景可见性并将其与投影的3D高斯足迹合并,再进行高斯平滑得到。

    对于第一帧 ,将 替换为输入图像,并设置 ,从而保持第一帧不变,仅修改后续帧。背景通道与3D高斯轨迹通道共享同一世界状态但通过解耦的通道渲染,因此相机编辑仅影响背景分支,对象编辑仅影响3D高斯轨迹分支,从而实现几何一致的控制。

    2. VerseCrafter 架构

    (1)主干网络

    采用Wan2.1-14B作为冻结的潜空间视频扩散/流匹配主干网络,该网络包含一个3D VAE和一个基于DiT的去噪器。VerseCrafter 将 Wan2.1 视为一个通用的视频先验:不改变其架构或权重,而是附加一个轻量级的几何适配器(GeoAdapter),利用 4D 控制图对该主干网络进行条件控制。

    (2)GeoAdapter

    对于每一帧 ,获取渲染后的背景与 3D 高斯轨迹图,即 、 、 、 ,以及软控制掩码 。其中,四张 使用与视频潜变量相同的 3D VAE 进行编码,而 则被重塑并插值至潜变量分辨率。沿时间维度堆叠这些编码后,产生一个时空几何张量。该张量在通道维度上与视频潜变量令牌进行拼接并对齐。

    GeoAdapter 是一个轻量级的、DiT 风格的附加分支,对该几何张量进行操作。它共享 Wan-DiT 块相同的令牌维度,但使用的层数远少于主干。GeoAdapter 块与冻结的 Wan-DiT 块交错集成:Wan2.1 中每第 个 DiT 块与一个 GeoAdapter 块配对,后者的输出被线性投影回主干网络的宽度,并作为残差调制添加到对应的 DiT 块中。文本提示由 umT5 编码为文本嵌入,这些嵌入通过相同的文本条件接口注入到 Wan 的 DiT 块和 GeoAdapter 中。这种基于适配器的条件控制方式,仅以少量额外参数便将4D几何信息注入 Wan2.1,同时保持所有主干网络权重固定。

    (3)推理

    在推理阶段,VerseCrafter 既支持对相机或对象运动进行独立控制,也支持在统一的框架内对二者进行联合控制。对于仅控制相机的情况,提供相机轨迹和背景控制图,同时将所有与对象轨迹相关的通道(RGB/depth/mask)设为零。对于仅控制对象的情况,保持相机位姿固定,并从静态背景点云 渲染静态背景分支(RGB/depth及其mask)。对于联合控制,两个分支均处于激活状态,并从同一4D世界状态渲染,从而使 VerseCrafter 能够以协调、几何一致的方式调整相机轨迹与多对象运动。

    02

    数据集

    为在具有显式 4D 控制的真实复杂场景上训练和评估 VerseCrafter,研究团队构建了 VerseControl4D——一个包含自动生成的 4D 几何控制标注的真实世界视频数据集。如图 2 所示,VerseControl4D 通过数据收集、片段提取、质量过滤与数据标注四个阶段构建。

    打开网易新闻 查看精彩图片

    图 2 以 Sekai-Real-HQ 和 SpatialVID-HQ 数据集为基础,首先进行 81 帧视频片段的提取,随后执行质量过滤。对于每个保留的片段,通过 Qwen2.5-VL-72B、GroundedSAM2 及 MegaSAM 自动生成描述文本、对象掩码、深度信息与相机位姿。这些数据被转换为背景点云与对象点云,并拟合为 3D 高斯轨迹 ,最终渲染为背景图、轨迹图以及一个合并掩码,共同构成 4D 几何控制。

    该数据集共包含 35,000 个训练样本与 1,000 个验证样本,其中训练集涵盖约 20% 的静态场景与 80% 的动态场景,以支持相机控制、对象运动及二者联合控制的建模需求。

    03

    评估

    1. 相机与物体运动的联合控制

    首先在 VerseControl4D 数据集上评估相机与物体运动的联合控制性能。VerseCrafter在准确遵循指定相机路径的同时,将多个物体保持在其3D高斯轨迹上,从而生成了清晰且时间一致的视频。

    表 1 在 VerseControl4D 数据集上进行的相机与物体运动联合控制实验。报告了 VBench-I2V 分数及 3D 控制指标(旋转误差 RotErr、平移误差 TransErr、物体运动控制误差 ObjMC)。

    打开网易新闻 查看精彩图片

    如表 1 所示,VerseCrafter 在综合得分(Overall Score)、成像质量(Imaging Quality)、美学质量(Aesthetic Quality)以及主体/背景一致性方面均有明显提升。在 3D 控制指标上,与最强的基线方法相比,VerseCrafter 显著降低了旋转误差、平移误差和物体运动误差,反映出与目标 4D 轨迹更紧密的对齐。

    2. 仅相机运动控制

    在 VerseControl4D 数据集的静态场景子集上评估仅相机控制性能,其中物体保持静止,仅相机运动。如表2所示,在综合评分(Overall Score)、成像质量(Imaging Quality)以及背景与主体一致性方面均获得稳定提升,同时保持了与现有方法相当的运动平滑性。在3D相机指标上,VerseCrafter相对于最强基线显著降低了旋转误差与平移误差,表明其在静态场景中能够更准确地遵循目标相机轨迹。

    表 2 在静态场景下对仅相机运动控制的评估。基于 VerseControl4D 数据集的静态场景子集,报告了 VBench-I2V 分数及相机控制指标旋转误差(RotErr)与平移误差(TransErr)。

    打开网易新闻 查看精彩图片
    打开网易新闻 查看精彩图片

    图 3 静态场景下仅相机运动控制的定性对比

    图 3 中的定性比较进一步印证了这一趋势:基线方法常出现墙体弯曲、窗户错位或沿路径视差不稳定等现象,而VerseCrafter 则保持了笔直的结构、稳定的深度关系以及与真实视频更为接近的视觉外观,证明了其在静态 3D 世界中精确的相机控制能力。