机器人拉个拉链需要"脑子"吗？这个新模型给出99.9%的答案|动作|拉链|推理|机器人|算法|轨迹

机器人拉个拉链，到底需不需要"脑子"？过去几年，从OpenVLA到π0、π0.5，具身大模型已经能让机器人把指令和动作连得有模有样。但一旦包的位置挪了几厘米，或者光照暗了一点，它们往往就会"大脑宕机"。

究其原因，是因为这些机器人大多在玩"连连看"：看到观察结果，直接输出动作。它们只是记住了轨迹，却并不理解背后的物理逻辑。

现在，一种让机器人"先想明白，再稳定行动"的新范式来了。由至简动力、北大、港中文联合提出的新模型，首次将隐空间物理推理塞进了强化学习的闭环。

它的表现有多夸张？在LIBERO benchmark上，仅靠1条轨迹预热，平均成功率就冲到99.9%；在真实抓取、旋转等复杂任务中，比目前最强的SOTA模型π0.5还要高出22.5%。即便换了物体、背景或光照，它依然能稳如老狗。

这个让机器人长出"物理脑"的新模型，到底是怎么炼成的？

只会模仿，不懂物理

尽管从OpenVLA到π0.5，具身大模型已经完成了图像、语言与动作的初步对齐。但在实际落地中，工业界发现了一个致命的"幻觉"：能模仿，不等于能在物理世界泛化。

打个比方，机器人可能记住了100种拉拉链的轨迹，但只要拉链的角度偏转15度，或者光照发生变化，单纯靠"观察→动作"的端到端映射就会失效。核心问题在于，现有的VLA模型缺少一个"思考"的中间层——即让机器人在行动之前，对物理世界进行推理。

过去，学术界也曾尝试引入思维链（CoT）来解决推理问题。但对于机器人操作而言，语言推理往往太慢且颗粒度太粗，你很难用文字精准描述"拉链咬合时的细微阻力反馈"。

该模型的核心突破，就是放弃了低效的语言CoT，转而在隐空间（Latent Space）中构建物理推理链。它不再让机器人看到图像就"闭眼"出动作，而是先在隐性空间里建模场景的结构、物体的物理关系以及未来的动态变化。

然而，要让机器人学会这种"思考"，仅靠静态的模仿学习（SFT）是不够的。目前的强化学习（RL）方法大多像是一个只看结果的严厉教练：它只告诉机器人动作成没成功，却无法指导机器人"刚才那下你是怎么想的"。

针对这一痛点，该团队提出的LAPO（Latent-to-Action Policy Optimization）算法，正式将"思考过程"拉进了强化学习的优化闭环。它让环境反馈不仅优化动作，也优化机器人行动前的"物理思考"。

不只练"手"，更要修"脑"

这个新模型希望通过强化学习后训练，让具身大模型不仅学会生成动作，也学会在行动前，进行面向物理世界的隐空间推理。

与以往主要优化action space的具身大模型RL不同，它的核心思想是：机器人不应只从图像和指令直接预测下一步动作，而应先在latent space中理解场景结构、物体关系和物理动态，再生成更稳定、精准的动作。

换句话说：不只优化机器人的"手"，也优化它的"脑"。

具体来看，该模型构建了一个面向latent reasoning-before-acting策略的强化学习后训练框架，核心由三步组成：

第一步，物理隐空间推理建模。传统具身大模型往往直接从observation生成action，动作前缺少可建模、可优化的物理推理过程。该模型在模型推理中引入latent CoT：生成动作前，先在latent space中建模当前场景、物体关系和未来物理动态。相比语言推理，latent reasoning更适合承载连续、高频、难以语言化的物理信息。

第二步，隐空间推理与动作生成的联合强化优化。传统具身大模型RL多数只优化动作结果：哪个action带来更高reward，就强化哪个action。该团队提出的LAPO算法，把环境奖励同时作用于latent reasoning和action generation：成功轨迹不仅强化正确动作，也强化动作之前的"好推理"；失败轨迹不只修正动作结果，也反向调整内部物理推理空间。让reward真正塑造动作背后的reasoning process。

第三步，自适应latent CoT推理机制。不同任务决策需要不同长度的思考。该模型引入adaptive latent CoT：简单状态下，模型可以快速结束推理并执行；拉拉链、擦花瓶、拧瓶盖等复杂接触式操作，则分配更长reasoning horizon。在交互中学会：什么时候该"多想"，什么时候该"快做"。

仿真与真机双杀

在LIBERO benchmark上，该模型仅用1条轨迹预热，平均成功率达到99.9%，显著优于现有方法。

在真实世界任务中，面对抓取、旋转等复杂操作，其表现比π0.5高出22.5%。更重要的是，当测试条件发生变化——更换物体、调整背景或改变光照——模型依然保持稳定性能，展现出真正的物理泛化能力。

这背后，是隐空间物理推理与强化学习的深度融合。环境反馈不再只告诉机器人"动作对错"，而是同时塑造它的"思考方式"。

该研究由至简动力、香港中文大学、北京大学计算机学院多媒体信息处理国家重点实验室联合完成。值得一提的是，其基座模型已中稿ICML 2026 Spotlight（top 2.2%）。

从"模仿轨迹"到"理解物理"，具身大模型正在经历一场关键的范式转移。而这场转移的核心，或许就藏在机器人"动脑"的那一刻。