RoboScience打造具身世界模型，用物体3D点云轨迹打开物理认知的黑箱|新论文|模态|点云|轨迹|黑箱

如果机器人能在行动之前，先“预演”未来——发生什么接触、物体会如何移动、轨迹是否合理——它会变得更聪明吗？

机器人前瞻3月23日报道，近日，RoboScience推出了「具身世界模型」。它不是简单地生成好看的视频，而是让机器人在数字世界中构建一个可交互、可预测、符合物理规律的“想象空间”，可以无限试错、预演未来、评估风险，再到真实世界中从容执行。

当前，行业内的世界模型大多聚焦在两个方向：一是2D视频生成，预测下一帧像素却不懂三维空间；二是3D静态重建，能还原空间结构却无法预测物体如何随时间运动。RoboScience的「具身世界模型」选择第三条路——3D动态世界模型：在三维空间中，预测物体随时间的连续运动轨迹。

「具身世界模型」是RoboScience VLOA大模型的两大核心引擎之一，与「通用操作模型」共同构成通往通用具身智能的完整闭环。前者负责理解物理世界、预演未来轨迹，后者则将想象转化为精准动作。

一、以物体为中心的3D点云轨迹：让思考可见

该「具身世界模型」接收自然语言指令与视觉图像作为输入，可以处理单视角或多视角图像，在复杂场景中精准定位目标物体及其未来运动状态。

与传统方法预测下一帧像素不同，「具身世界模型」关注物体状态的语义变化——物体在三维空间中的位置、姿态、形变、与周围环境的交互关系。它将场景分解为一个个物体，分别预测其未来的运动路径。

最终输出是描述物体未来运动路径的3D点云轨迹：一串带有时间戳的三维点序列，每个点包含位置坐标、姿态信息、时间步和预测置信度。

为什么是3D点云？因为它显式可解释，可以直观看到模型预测的路径；它在真实三维空间中建模，天然满足几何约束；而且轨迹可直接作为下游操作模型的输入，实现从感知到执行的无损传递。

▲「具身世界模型」生成的视频及其3D点云轨迹

这些3D点云轨迹并非凭空产生，而是通过一个专为动态三维世界设计的神经网络架构，从输入的视觉图像和语言指令中端到端生成。

下图展示了「具身世界模型」的内部结构：

▲「具身世界模型」架构图

「具身世界模型」会先将RGB观测、3D点云先验与任务指令分别编码为可计算的语义与空间表征，再送入世界因果Transformer对任务条件下的未来世界演化进行建模，形成统一的潜在世界表征；随后，模型通过解码过程输出场景与目标物体的3D flow，并可沿可选分支进一步生成未来操作视频，从而把“看见当下、理解指令、预测未来”连成一条完整链路。

这一架构赋予模型三大核心亮点：

亮点一：
跨物体泛化——理解物理属性

无论是光滑的洗发水瓶、透明的棉签盒，还是不同样式、颜色的饮料盒与包装——面对材质、形状、尺寸各异的物体，模型均能精准预测其运动轨迹。

这体现的是模型对物体物理属性的深刻理解：它知道硬质物体如何被抓取、软质物体会如何形变、不同材质的物体需要怎样的接近角度。模型无需针对每个新物体重新训练，而是将对物理世界的通用理解迁移到未见过的物体上。

多物体抓取演示

在同一个收纳场景中，模型针对棉签盒、瓶子等不同物品生成适配的抓取与展示动作。

面对桌面上的柠檬茶盒、咖啡胶囊盒、橙色汽水瓶、袋装咖啡，模型为每个物体生成精准的运动轨迹。

亮点二：
动态过程建模——想象物理变化

给定第一人称视角的第一帧图像，模型能“想象”出后续倒水的完整过程——水壶如何倾斜、水流如何注入杯子、杯中的水位如何上升。

即使倒水动作涉及液体动态和精细操作，模型依然能生成符合物理规律的3D点云轨迹。这一能力远超单纯“补全视频”的范畴，是真正对物理未来的建模。

▎第一人称视角操作演示

模型预测水壶向碗中倒水的完整过程，包括倾斜角度、水流注入和水位上升。

模型预测手持白色马克杯放上餐盘的运动轨迹。

亮点三：
指令跟随与个体区分——理解语义意图

模型不仅能识别物体，更能理解指令中的语义差异：对象是谁、动作是什么、意图有何不同。这是跨模态语义对齐与细粒度实例区分能力的体现。

模型生成机械臂将白色马克杯和装有食物的小绿碗分别放入橙色碗中的不同操作。

模型预测机械臂从洗衣篮中分别取出棕色衣物和荧光黄色衣物放入洗衣机的不同操作。

通过以上的可视化案例，其让世界模型从一个“黑箱”变成了一个可解释、可调试、可信赖的认知引擎。每个视频中的轨迹变化，都是模型内部思考的直接映射。

二、四大能力：让想象更真实

上述案例所展现的跨物体泛化、动态过程建模、指令跟随等能力，根植于模型内在的四项核心技术特性。这些特性确保「具身世界模型」不仅是“想象”，更是“可靠的想象”。

·物理约束满足：所有轨迹严格满足动力学、碰撞、稳定性等真实世界物理约束。倒水案例中，水壶倾斜角度与水流轨迹的匹配、水面的平稳上升，都体现模型对重力、流体行为的精准把握。这是2D视频生成无法做到的——2D世界没有重力方向，而我们的模型在三维空间中真正“理解”物理定律。

·原生支持物理多解性建模：真实世界充满不确定性。本方案利用扩散模型的生成特性，在潜在空间内构建物理演化的概率分布，从而能够推演出同一任务下多种合理的轨迹方案。这种对不确定性的建模能力，为具身智能在复杂场景下的决策安全性提供了坚实的底层支撑。

·长时序空间一致性：在复杂多步骤任务中，模型能保持预测状态在时间和空间上的全局连续。倒水视频长达数秒的预测中，物体相对位置始终合理，没有幻觉。

·硬件解耦：模型核心与具体机器人结构解耦，生成的规划可无损迁移至任何形态机器人本体——无论是机械臂、人形机器人还是灵巧手，都能理解同样的物体轨迹。

正是这四项核心技术特性，让「具身世界模型」的每一次“想象”都有据可依、有律可循。

「具身世界模型」的能力也会随着训练次数的迭代持续进化。下图展示了模型在预训练过程中，随着训练次数的增加，模型能力在多个关键指标上的提升。

▲模型训练迭代过程中的指标变化趋势，Content Alignment、Subjective Quality、Photometric Consistency和Motion Smoothness在微调过程中均持续提升。⭑表示最终checkpoint，标注给出了最终分数及其相对初始模型的提升幅度。

▲从基础模型到最终 checkpoint 的性能增益，左图表示各指标的绝对提升，右图表示相对提升百分比。Photometric Consistency 的提升最大，其次是 Motion Smoothness。

可以看到，投喂的数据和投入的算力越多,模型对物理世界的理解就就越精准,生成的未来轨迹就越贴近真实。

这正是具身智能领域的Scaling Law——模型的成长性是可预测、可持续的。随着我们以每周数十万小时的速度持续扩充视频数据集，世界模型的能力将持续进化，为机器人提供越来越可靠的“想象空间”。

而在完整VLOA架构中，具身世界模型扮演“认知大脑”角色——理解物理世界、预测物体状态、生成可执行的3D点云轨迹。这个轨迹通过Object Trajectory（物体轨迹）接口，传递给下一个核心模块：通用操作模型。

值得一提的是，支撑两大模型持续进化的底层基石，是规模与质量并重的数据体系。

该公司通过全自动数据标注与清洗pipeline，从海量互联网视频中筛选与物体状态变化、物理交互相关的高价值内容，已累积超过100万小时高维多模态操作相关的视频数据（上千万video clips），并以每周数十万小时的速度持续增长，目标是到2026年底构建千万小时级的全球领先视频数据集，为「具身世界模型」的持续进化提供不竭燃料。

同时，在「通用操作模型」数据方面，其基于自研的多模态物理引擎，已积累10B（100亿次）高质量全空间物体操作数据集，目标是到2026年构建超过1T（1万亿次）的操作数据集。

今天，其展示了具身世界模型如何用3D点云轨迹打开物理认知的黑箱。但这只是故事的一半——如何将这些想象轨迹转化为机器人手部精确的接触点、合适的力控、流畅的动作？如何适配不同形态机器人？这正是《VLOA系列解读（二）：通用操作模型》即将揭晓的答案。

而承载这些能力的，是该公司同步研发的机器人本体产品。它们是VLOA大模型技术的最佳载体，也是智能真正落地物理世界的最终形态。