智猩猩AI整理

编辑:六六

尽管现有世界模型能够在真值完美的合成数据上实现高效优化,但对于真实世界视频,由于姿态估计存在噪声且视角重访稀缺,此类模型仍缺乏有效的训练范式。

美团研究团队提出了 Infinite-World——一个能够从含噪声的真实世界数据中进行学习的交互式世界模型,该模型具备超远视野建模能力,可在长达1000帧的连续序列中保持高度一致的状态与空间结构。。通过客观指标与用户研究等大量实验表明 Infinite-World 在视觉质量、动作可控性与空间一致性方面均实现了优越性能。

打开网易新闻 查看精彩图片

  • 论文标题:Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

  • 论文链接:https://arxiv.org/abs/2602.02393

  • 项目页面:https://rq-wu.github.io/projects/infinite-world.html

01

方法

1. 层级化无姿态记忆压缩模块

为在计算成本恒定的前提下实现稳定的千帧仿真,研究团队提出了层级化无姿态记忆压缩模块(Hierarchical Pose-free Memory Compressor, HPMC),其结构如图 1 (a) 所示。

打开网易新闻 查看精彩图片

图 1 Infinite-World 架构概述。(a) 层级化无姿态记忆压缩模块。(b) 感知不确定性的动作标注。(c) 数据策略。

(1)压缩模式

HPMC 根据上下文长度,通过两种操作模式将历史潜变量转换为固定内存预算的表征,即适用于短序列的直接压缩模式与适用于长距离探索的层级化压缩模式:

模式 1:短视野直接压缩。当上下文长度在可处理阈值范围内时,将时间编码器 直接作用于原始潜变量 ,生成压缩表征 token 。

模式 2:长视野层级化压缩。当探索视野 超出内存预算时,引入层级化压缩机制以避免内存漂移。通过滑动窗口将原始潜变量划分为 个重叠分块;对每个分块执行第一阶段局部压缩,提取其中的显著时空特征;将所有分块得到的中间表征 token 进行拼接后,再次使用时间编码器 执行第二阶段全局压缩。

(2)向扩散DiT注入上下文信息

为引导生成过程,DiT的输入为压缩后的历史表征、作为局部记忆的最后一帧潜变量,以及含噪目标潜变量这三类表征在时间维度的拼接结果。在该拼接序列后附加二进制掩码,用于区分上下文信息与去噪目标。

(3)联合优化与无姿态锚定

层级化无姿态记忆压缩模块的核心特征为: 与 DiT 骨干网络进行端到端联合优化(如图 1 (a)中火焰图标所示)。通过训练该压缩网络以最小化未来帧的生成损失,模型可自主识别并保留对闭环任务最具相关性的历史特征信息。

基于此,该模块摒弃了对外部位姿元数据与显式几何先验的依赖,以纯数据驱动的无姿态方式实现了长距离空间一致性。

2. 不确定性感知的动作标注与编码

为弥补连续控制与含噪真实世界轨迹间的差异,研究团队设计了不确定性感知的动作标注与编码机制,将原始运动信息转换为离散动作空间。

(1)运动解耦与三态标注

研究先将位姿变化解耦为平移、旋转幅值,通过 (噪声阈值)、 (动作触发阈值)两个阈值设计三态逻辑为运动分配动作标签,分为无操作、离散动作、不确定三类。针对平移、旋转任一维度,动作标签 的分配规则如下:

打开网易新闻 查看精彩图片

离散动作映射对应平移/旋转语义方向,保留不确定状态可避免低速运动误分类、降低噪声对标注的干扰;

(2)时间对齐的动作注入

同时动作编码器将运动与视角序列转为嵌入特征 ,经两步长为 2 的一维卷积实现 4 倍下采样,与视觉特征做时间对齐,对特征历史段零填充后,将其与整合后的视频特征逐元素相加,该设计能让动作信号以精准的时间同步性、极低计算开销,直接调制含噪潜变量空间。

3. 重访密集型微调策略

为了搞清楚模型学会 “长时空间记忆” 到底需要什么数据,研究团队先做了个探索性实验:研究基于合成三维场景训练一个轻量化的基于DiT的生成器,将历史潜变量作为拼接后的上下文输入模型。实验结果得出两项关键结论:

  • 记忆的高样本效率:闭环实现能力可通过少量数据激活。空间记忆的习得更依赖于轨迹的拓扑多样性,而非数据的绝对数量。

  • 上下文受限的外推特性:记忆稳定性与训练时间窗口之间存在强耦合关系。

研究团队明确了长视野世界建模的核心瓶颈在于轨迹的持续时长与拓扑密度,而非数据量本身。基于上述发现,研究团队设计了两阶段训练策略:

  • 开放域预训练:首先在大规模真实世界数据集上对模型进行预训练,使其学习多样化的视觉先验与局部动态特征。

  • 基于重访密集型数据集的记忆激活:利用轻量化的重访密集型数据集(Revisit-Dense Dataset, RDD)激活模型的空间记忆。该方式能够有效弥合现实差距,以实际可行的计算成本实现稳定的千帧闭环效果。

02

评估

研究团队将 Infinite-World 模型与多款前沿交互式世界模型展开性能对比,如表 1 所示,Infinite-World 模型在 VBench 评测体系的所有维度上均取得最优或次优性能。

表 1 长视野交互式评测基准上的定量对比。研究在该基准中报告了来自 VBench 的客观质量指标,以及基于用户研究得到的多维度主观评分。其中,黑体与下划线格式分别表示最优与次优结果。

打开网易新闻 查看精彩图片

Yume 1.5 模型在平均得分上取得微弱领先(0.8141 比 0.8119),这一结果的核心成因是其远大于 Infinite-World 的参数量级(5 B对比 1.3 B)。此外,研究发现 Yume 1.5 模型在评测基准中取得的高分,部分原因在于其动作控制能力存在局限性。

用户评测:客观指标虽能完成初步评估,人工主观评价却能更全面地反映模型的交互性能。Infinite-World 模型展现出绝对性的优势,取得了 1719 的领先 ELO 评分,该评分较次优模型 HY-World-1.5(1542 分)实现了 177 分的显著领先。

细粒度排名凸显了研究的技术优势,Infinite-World 模型在记忆一致性(1.92)、视觉保真度(1.67)两项指标上均位列第一,印证了层级化无姿态记忆压缩模块(HPMC)能有效缓解千帧视野下的误差累积。

该模型的动作响应性指标(1.54)也取得顶尖成绩,与依赖标注完善合成数据训练的 HY-World-1.5 持平(1.50),而其仅用含噪原始真实世界视频便实现此效果,验证了不确定性感知动作标注机制可有效弥合现实差距,让模型在非理想轨迹训练下仍能输出即时精准的动作反馈。

打开网易新闻 查看精彩图片

图 2 Infinite-World 模型与四款基线模型的视觉对比结果。注意第二分块与第六分块间的视觉一致性,且第八分块为第一帧的放大视图。

图 2 中展示了 Infinite-World 模型与多款前沿模型的视觉对比结果,四款基线模型各存在明显缺陷:

  • Matrix-Game 2.0 视觉保真度高但无视野外记忆机制;

  • Hunyuan-GameCraft 仅能保持粗略的场景持续性,无法留存长视野下的细粒度结构细节;

  • HY-World-1.5 短期一致性表现好,却因误差累积产生重影伪影和结构畸变;

  • Yume 1.5 受训练数据的运动分布偏差影响,形成固化的向前移动倾向,无法完成视角重访和视野外记忆验证。

Infinite-World 通过不确定性感知动作标注克服了上述各类问题,实现了响应性动作控制,其在数百帧后仍能保留场景全局地标,成功完成各基线模型均无法实现的长距离闭环,也验证了层级化记忆压缩模块能有效激活模型的空间推理能力。