基于预训练视觉表征构建世界模型已成为具身智能领域的前沿研究方向。以 DINO-WM 为代表的先进研究成果表明,基于视觉 Transformer (ViT) 的架构能够精确捕捉复杂的物理动态,并展现出强大的零样本规划能力。然而,这种不区分运动物体和静态背景、对所有图像块应用自注意力的密集计算范式导致了高昂的计算开销,使得决策速度成为实际部署中一个巨大的挑战。
具体来说,目前最先进的此类模型 (DINO-WM) 在处理 Push-T 等典型操作任务时,其模型预测控制 (MPC) 的单个决策循环耗时高达两分钟。显然,这种延迟对于需要与物理世界持续高频交互的现实场景应用而言是不可接受的,阻碍了机器人的大规模、低成本端侧设备部署。
近期,中山大学人机物智能融合实验室 (HCP Lab) 联合拓元智慧 X-Era AI 提出了一种新型的高效世界模型框架:DDP-WM (Disentangled Dynamics Prediction World Model)。该框架的核心思想是解耦动态预测。通过一套系统化的设计,将计算资源精确分配给场景中不同属性的动态特性,从而在推理速度大幅提升的同时,还能显著提升复杂操纵任务的规划成功率。例如,将 Push-T 任务的规划速度提升 9 倍的同时,成功率从 90% 提升至 98%。该工作为设计高效、高保真度的世界模型提供了一条新途径。
- 论文标题:DDP-WM: Disentangled Dynamics Prediction for Efficient World Models
- 论文链接:https://arxiv.org/abs/2602.01780
- 代码链接:https://github.com/HCPLab-SYSU/DDP-WM
I. 动机
DDP-WM 的设计源于对现有稠密计算范式的模型在当前主流任务上工作模式的洞察。大多数场景的物理交互过程中,实际发生变化的区域面积占比很小;也就是说,绝大部分的计算都浪费在对静态背景的无效重复计算上。
为直观地揭示这种计算冗余的本质,该研究团队对密集模型的内部工作机制及其处理的动态数据进行了深入分析。 图 1(a) 使用主成分分析 (PCA) 可视化模型预测器中每一层特征的演变。例子中我们可以看到,在多层高成本计算的整个过程中,静态背景区域的那些 token 几乎没有特征上的变化,直接证明了大量的计算能力浪费在了重复无效计算上。
图 1(a): 密集模型中特征演变的 PCA 可视化,揭示了静态背景区域中大量的冗余计算。
这种现象的根本在于:大规模预训练的视觉基础模型潜在空间表征,对于稀疏的运动变化所产生差异具有固有的稀疏性。 将输入到真实世界模型的相邻两帧的特征图进行相减后可视化(图 1(b)),只有极小部分特征能看到显著变化。物理世界中稀疏的运动动态反映在特征层面上是高度稀疏且结构化的,这与前文观察到的静态背景区域 token 层间一致性是相符的。
图1(b): 相邻真实特征之间差异的 PCA 可视化,展示了物理世界动力学在特征层面的固有稀疏性。
基于这种洞察,DDP-WM 确立了其解耦动态预测 (DDP)的核心设计理念。该理念认为,观测场景的潜在状态演化可以从根本上分解为两种不同的动态:一种是稀疏的主动态,由物理交互直接引起而发生在少数前景物体上;另一种是上下文驱动的背景更新,由主动态引发而发生在更广泛的区域内。
II. 架构:动态分配系统
图 2:DDP-WM 框架概述。
如图 2 所示,预测过程首先用高效的历史信息融合模块,通过单层交叉注意力将速度、加速度等高阶动态信息注入到当前帧特征里,为之后精确预测提供必要的上下文信息。富含历史信息的 tokens 经过动态定位网络来识别下一帧中的主动态所在区域;识别出的主动态区域通过强大的稀疏主动态预测器,变换成下一帧的主动态特征;其余背景 tokens 在低秩校正模块中,在主动态 tokens 的指导下高效地修正背景上的细微变化。
2.1 动态定位:精确识别主要动态区域
动态定位网络的功能是高效、准确地识别出下一帧中发生稀疏的主动态。输入历史信息融合后的 token 序列到轻量级视觉 Transformer (ViT),输出一个稀疏的二值掩码 M,该掩码用于标记出预期会发生核心物理交互的图像块,把计算资源引向最重要的部分。
2.2 稀疏预测:将计算能力集中于核心变化
主动态是物理交互的核心,其变化通常复杂且非线性,需要强大的模型能力才能捕捉。DDP-WM 使用了一个强大的稀疏主动态预测器。该模块也使用多层 ViT 架构,但是它的所有计算资源只用于动态定位网络识别出来的稀疏前景特征子集。这样 DDP-WM 就避免了把计算能力浪费在大面积的静态背景上,从而可以让更深、更强的模型来对真正的物理过程进行建模。另外,该模块采用自适应长度调整的方式,可以适应不同的场景中动态变化的稀疏输入序列长度,使得模型能应对大幅度运动导致的大面积画面变化,在硬件效率和计算精度之间取得良好的平衡。
2.3 背景更新:低成本自洽校正
DDP-WM 对被视为近似静态的大面积背景区域采用了一种高效的更新策略:用一个专门设计的低秩校正模块 (LRM)来执行低成本的自洽校正。其核心是一个单向交叉注意力机制,允许来自前一帧的背景特征查询主预测器新生成的前景特征。通过这种方式,背景特征可以以最小的计算开销进行微调,从而反映前景物体运动引起的全局上下文变化。这种设计确保了整个潜在特征空间在演化过程中的一致性和平滑性,对下游规划任务至关重要。
III. 实验验证:效率与性能的双重优势
为了全面评估 DDP-WM 框架的有效性,研究团队在五个具有不同动态特性和任务复杂度的仿真环境中进行了广泛的实验。这些环境涵盖了从简单的导航(PointMaze、Wall)到精确的桌面操作 (Push-T),再到柔性体 (Rope) 和多体系统 (Granular) 之间复杂的交互等各种场景。评估主要集中在规划成功率 (SR)、倒角距离 (CD) 和模型预测控制 (MPC) 的计算效率等核心指标上。
3.1 性能超越现有最佳基准
实验结果表明,DDP-WM 在所有任务上的规划性能均达到或超过当前最先进的密集世界模型 DINO-WM。 如表 1 所示,DDP-WM 在 PointMaze 和 Wall 导航任务中分别取得了 100% 和 98% 的高成功率。在具有挑战性的刚体操作任务 Push-T 中,DDP-WM 的 MPC 成功率达到 98%,显著优于 DINO-WM 的 90%。这表明 DDP-WM 提供的高精度预测能够为规划器提供更好的决策支持。
表 1 :五种仿真环境下 MPC 规划性能对比
在更为复杂的绳索和颗粒任务中,难以定义二元成功状态;因此,倒角距离被用作评估操作精度的指标。DDP-WM 在这两项任务中也取得了最低的倒角距离,这展现了其强大的理解高自由度非刚体变形和复杂多体动力学的能力。规划性能的提升源于高保真的预测建模质量。动图中可以看到,稠密 DINO-WM 在多步预测后,其生成的 T 形物块出现了明显的视觉伪影,例如边缘模糊羽化、或违背物理常识的软体状扭曲变形;也就是说,对物体刚体特性不能够准确地表征。而 DDP-WM 则在整个过程中保持物块锐利边界和物理一致的旋转姿态。这证明聚焦预测核心变化区域能够显著提升预测质量。
3.2 效率实现数量级提升
实验数据从三个方面来度量 DDP-WM 的效率提升:理论计算成本 (FLOPs)、实际推理吞吐量、端到端 MPC 决策延迟。动态复杂的 Push-T 任务中,DDP-WM 的单步前向推理 FLOPs 为 2.5G,DINO-WM 的单步前向推理 FLOPs 为 23G,两者之比约为 0.108。该理论上的优势被转化成了实际推理速度的提高。在单步推理吞吐量测试中,DDP-WM 在 Push-T 任务上实现了每秒 1563 个样本的吞吐量,相比 DINO-WM 提升了9.2 倍。如此显著的速度优越性在整个 MPC 决策循环中能够更显著地体现;比如,在需要 30 次 CEM 迭代的 Push-T 任务中,DDP-WM 的单次决策时间从 DINO-WM 的两分钟显著缩短至 16 秒,这就使得更高频率的实时机器人控制成为了可能。
3.3 消融实验
为对框架中各设计元素的有效性进行验证,研究团队对 Push-T 任务进行了一系列消融实验。其核心结果是:当去除低秩校正模块 (LRM),并只进行稀疏预测,而将静态区域的特征严格保持与上一帧不变时,虽然开环预测仍然能够保持超越稠密预测的高保真建模,但是模型的 MPC 成功率从 98% 急剧下降到 70%。这说明 LRM 解决的并非简单的开环预测精度问题。
IV. 分析:闭环规划中的挑战与低秩校正
消融实验揭示了一个关键现象:虽然简单的稀疏化方案(即去掉 LRM 的版本,仅预测前景并直接复制背景)在多步开环预测中表现良好,但在闭环规划中性能急剧下降。研究团队对不同模型为规划器生成的优化景观进行了可视化分析。
4.1 优化景观
图 6:MPC 成本函数景观对比。(左图)移除 LRM 后的稀疏模型生成了一个崎岖不平、噪声较大的成本景观。 (右图)完整的 DDP-WM 模型提供了一个平滑且易于优化的漏斗状地形。
移除 LRM 之后,模型产生的代价地形崎岖不平,噪声大,峰形呈锯齿状,没有明显的全局最小值(图 6(a))。这种地形上任何基于采样的优化器都无法找到有效的下降方向,在闭环规划中就会失败。相反的是, 带有 LRM 的 DDP-WM 模型生成的代价地形非常平滑,并且有明显的漏斗状宏观结构,中间有一个深的、唯一的最小值(图 6(b))。这种地形给优化算法提供了一个清晰的引力井,从而可以稳定地收敛到最优解。
4.2 低秩结构
研究团队进一步假设,这种看似复杂的全局背景更新本质上是低秩的。为了验证这一核心假设并检验 LRM 是否成功学习到这种结构,研究团队对由真实特征图做差得到的背景更新特征图和 LRM 模块生成的背景更新特征图进行了主成分分析 (PCA)。 结果发现,真实更新特征图的累积解释方差曲线随着主成分数量的增加,呈现出急剧上升、快速饱和的趋势(图 7),有力地证明了真实特征图的更新过程本身就是低秩的。另外也可以看到,LRM 模块生成的更新特征图的 PCA 曲线和真实值曲线非常相似。
图 7:LRM 成功学习到真实的低维结构。(左图)LRM 预测的更新特征的 PCA 分析(右图)真实更新特征的PCA 分析。
V. 总结与展望
DDP-WM 的成功表明,通过基于对潜在空间的运动模式的深刻洞察进行有针对性的结构设计,完全可以在不牺牲甚至超越现有 SOTA 的前提下,显著提高世界模型预测速度。这项工作对于推动具身智能走向实际应用有重大意义。DDP-WM 把对计算资源的依赖降低了一个数量级之后,就有可能在更轻量级的边缘硬件上部署更高频、更复杂的模型来进行规划,从而为工业生产和家政服务等实际场景中部署先进的自主机器人铺平道路。
热门跟贴