机器人学会“举一反三”！从未见过空气炸锅，却能烤出红薯！|动作|小型机器人|机械|番薯|空气炸锅|算法|红薯

在 Generalist AI 发布 Gen-1 两周之后，具身赛道的另一位重量级玩家 ——Physical Intelligence 也亮剑了，发布了新模型 π 0.7，VLA 又往前走了一步。

这个模型的重大突破在于 —— 它不只是重复训练中遇到的任务，而是展现出了组合泛化的初步迹象。什么叫组合泛化？举个例子，你会切菜、会打开燃气、会翻炒，当你想吃番茄炒蛋时，虽然你从来没有做过，但只要看一眼菜谱，你也能把这些技能组合起来，把菜做出来。现在的大语言模型之所以那么强大，本质上也是因为具备这种能力。

但在机器人领域，这种能力还没有大规模涌现。比如现在广泛使用的 VLA（视觉 - 语言 - 动作）模型，虽然能听懂各种指令和概念，但它们还不会把学过的技能灵活组合起来用。你给它一个新工具或者没见过的厨房用具，它就不知道怎么用了。而且，就算是它学过的技能，通常也得专门再「调教」一下，效果才会好。这跟早期那些语言模型很像，处理不同的问题也得单独做微调。

π (0.7) 看起来不一样。Physical Intelligence 提到了一个空气炸锅的例子。他们从未让 π0.7 学习过「用空气炸锅烤红薯」这个具体任务。但是，当通过分步的语言指令（就像指导一个第一次使用空气炸锅的人那样）来「辅导」它时，这个模型能够理解并执行。它需要将「关闭炸篮」、「放置食物」等从不同数据片段中学到的概念组合起来，应用到一个全新的、完整的任务流程中。

研究人员自己也很好奇，π0.7 到底是从哪里学会「空气炸锅」这个概念的。毕竟，训练数据里并没有直接演示「用空气炸锅烤红薯」的完整过程。由于训练集的规模很大且非常多样，很难精确追踪到是哪几段数据赋予了模型这个知识。研究人员的推测是，它很可能来自机器人操作数据和大规模视觉语言预训练的共同作用。

除了组合泛化，π0.7 在跨本体迁移方面的表现也非常亮眼。

在一个叠衣服的例子中，π0.7 被要求控制一个它从未训练过的、形态差异很大的双臂机器人（UR5e 系统）来叠衣服。UR5e 系统由两台 UR5e 工业机械臂搭配 Robotiq 平行夹爪组成。这台机器人很难遥操作：机械臂很重，惯性很大，夹爪也相对不够精确。研究人员之前完全没有收集过这台机器人做叠衣服任务的任何数据。

他们让 π0.7 去控制这台机器人折叠衣物。出乎意料的是，它能够稳定地完成这一操作。值得注意的是，该机器人在折叠 T 恤时的物理动作，与他们最初采集训练数据所用的那台更小型机器人的动作存在显著差异。最终，π0.7 在该任务上的成功率，与经验丰富的遥操作员在同样使用双臂 UR5e 系统进行「零样本」操作时的成功率持平。这些操作员平均拥有 375 小时的遥操作经验，他们正是最初在原始机器人上采集训练数据的同一批专家。