打开网易新闻 查看精彩图片

超电机器人报道

作者|在洲

在具身智能(Embodied AI)的竞技场上,一场关于技术范式的无声交锋正在上演。

近日,在由斯坦福大学等顶尖机构联合发起的具身智能权威榜单RoboCasa GR1 TableTop中,无界动力(Boundless Robotics)发布了其隐空间世界模型MWATM,并以75.2%的平均任务成功率刷新纪录,超越英伟达GR00T-N1.6、小鹏DIAL等一众明星模型,登顶全球第一。

打开网易新闻 查看精彩图片

这不仅仅是一个排名的更迭,更是一次技术路径的验证。在业界普遍陷入“Scaling Law(缩放定律)”带来的数据焦虑时,无界动力通过一套名为“长时序双向物理因果链”的新架构,试图回答一个核心问题:机器人究竟是该学会“看见”世界,还是学会“理解”世界?

抛弃像素复刻,转向隐空间建模

长期以来,占据主流的VLA(视觉-语言-动作)大模型路线,本质上是将物理世界强行映射到离散的语义空间。这种“端到端”的模式虽然简化了流程,却存在一个致命缺陷:缺乏对物理规律的深层认知。

机器人可能知道“苹果”这个词的语义,却无法预判轻轻一碰苹果就会滚落。这种对物理边界的“无知”,导致其在复杂多变的真实场景中泛化能力骤降。

无界动力选择了一条更为硬核的路径——“隐空间世界模型+强化学习”。

其核心逻辑在于“降维打击”。人类大脑并不需要像高清摄像机一样复刻眼前的每一个像素,而是通过抽象思维抓住事物的本质。MWATM正是借鉴了这一机制,摒弃了在像素空间进行高开销、高噪音的预测,转而在一个统一的“隐空间”(Latent Space)中进行推演。

打开网易新闻 查看精彩图片

在这个高度抽象的维度里,模型过滤掉了光影、纹理等与决策无关的冗余信息,将注意力聚焦于物理因果的本质。

这使得机器人不仅能“看懂”画面,更能理解“动作”与“物理反馈”之间的因果关系,从而构建起真正的“世界观”。

“双向动力学”:让机器人学会“复盘”与“推演”

如果说隐空间建模解决了“认知”问题,那么MWATM首创的“双向动力学”架构则解决了“决策”的稳定性问题。

传统世界模型通常只能进行“单步潜动作推理”,即走一步看一步。这在短程任务中尚可应付,但在长周期作业中,微小的误差会像滚雪球一样累积,最终导致任务失败。

MWATM引入了“正-逆双向协同”机制。

逆动力学编码器(由果推因): 在预训练阶段,模型通过观察前后帧的画面变化,“复盘”导致变化的抽象原因,将其提炼为通用的“场景交互变化表征”。这一过程完全无需动作标签,能够极大程度地盘活互联网上的海量无标注视频数据。

正动力学解码器(由因推果): 在决策阶段,模型利用习得的通识,在“脑内沙盘”中正向推演动作可能引发的未来状态。

打开网易新闻 查看精彩图片

更具突破性的是,MWATM实现了时序Chunk级逆向动力学建模。这意味着模型不再是“单步思考”,而是能像人类一样进行“长时序因果归纳”,一次性批量推理出连续多步的动作组(Latent Action Chunk)。这种机制从根本上解决了长周期操控中的误差累积难题,实现了秒级完整操纵事件的预演。

AnyPhys for RL:用“负样本”筑牢物理边界

在强化学习环节,无界动力同样展示了深刻的洞察。当前行业数据集普遍存在“重正轻负”的弊端,模型看到的几乎全是“完美操作”。这导致机器人一旦遇到意外(如手滑、碰撞),往往因缺乏认知而陷入“决策瘫痪”。

为此,无界动力推出了行业首创的AnyPhys负样本核心数据体系。该体系不再一味追求“满分答案”,而是将深层负样本(失败案例)、细粒度边界失稳样本(临界状态)与次优样本深度交织。

通过对打滑、磕碰、飞溅等失败轨迹的反向推演,模型能够精准建模物理稳定域,确立清晰的“安全边界”。在精密接插类任务的实测中,基于这种稠密奖励机制的训练方式,使得机器人在噪声数据下的任务成功率提升了5倍。这证明了一个朴素的真理:在物理世界里,懂得“避坑”远比懂得“走路”更重要。

打开网易新闻 查看精彩图片

无界动力的此次登顶,验证了“先练脑,再练手”的可行性。通过在预训练阶段利用海量无标注数据建立物理常识,在策略训练阶段仅需少量真机数据即可完成控制映射。这种解耦的训练模式,极大地降低了对昂贵动作标签数据的依赖。

随着第二代机器人K15的批量投产,这项技术正在从实验室走向工业产线、商业空间和家庭环境。在具身智能这场长跑中,无界动力似乎找到了一条通往通用机器人的捷径——不再执着于构建世界的复刻镜像,而是赋予机器人类似的物理直觉与因果推理能力。这或许正是具身智能迈向大规模落地的关键密钥。