在 Generalist AI 发布 Gen-1 两周之后,具身赛道的另一位重量级玩家 ——Physical Intelligence 也亮剑了,发布了新模型 π 0.7,VLA 又往前走了一步。

打开网易新闻 查看精彩图片

这个模型的重大突破在于 —— 它不只是重复训练中遇到的任务,而是展现出了组合泛化的初步迹象。什么叫组合泛化?举个例子,你会切菜、会打开燃气、会翻炒,当你想吃番茄炒蛋时,虽然你从来没有做过,但只要看一眼菜谱,你也能把这些技能组合起来,把菜做出来。现在的大语言模型之所以那么强大,本质上也是因为具备这种能力。

但在机器人领域,这种能力还没有大规模涌现。比如现在广泛使用的 VLA(视觉 - 语言 - 动作)模型,虽然能听懂各种指令和概念,但它们还不会把学过的技能灵活组合起来用。你给它一个新工具或者没见过的厨房用具,它就不知道怎么用了。而且,就算是它学过的技能,通常也得专门再「调教」一下,效果才会好。这跟早期那些语言模型很像,处理不同的问题也得单独做微调。

π (0.7) 看起来不一样。Physical Intelligence 提到了一个空气炸锅的例子。他们从未让 π0.7 学习过「用空气炸锅烤红薯」这个具体任务。但是,当通过分的语言指令(就像指导一个第一次使用空气炸锅的人那样)来「辅导」它时,这个模型能够理解并执行。它需要将「关闭炸篮」、「放置食物」等从不同数据片段中学到的概念组合起来,应用到一个全新的、完整的任务流程中。

打开网易新闻 查看精彩图片

研究人员自己也很好奇,π0.7 到底是从哪里学会「空气炸锅」这个概念的。毕竟,训练数据里并没有直接演示「用空气炸锅烤红薯」的完整过程。由于训练集的规模很大且非常多样,很难精确追踪到是哪几段数据赋予了模型这个知识。研究人员的推测是,它很可能来自机器人操作数据和大规模视觉语言预训练的共同作用。

除了组合泛化,π0.7 在跨本体迁移方面的表现也非常亮眼。

在一个叠衣服的例子中,π0.7 被要求控制一个它从未训练过的、形态差异很大的双臂机器人(UR5e 系统)来叠衣服。UR5e 系统由两台 UR5e 工业机械臂搭配 Robotiq 平行夹爪组成。这台机器人很难遥操作:机械臂很重,惯性很大,夹爪也相对不够精确。研究人员之前完全没有收集过这台机器人做叠衣服任务的任何数据。

他们让 π0.7 去控制这台机器人折叠衣物。出乎意料的是,能够稳定地完成这一操作。值得注意的是,该机器人在折叠 T 恤时的物理动作,与他们最初采集训练数据所用的那台更小型机器人的动作存在显著差异。最终,π0.7 在该任务上的成功率,与经验丰富的遥操作员在同样使用双臂 UR5e 系统进行「零样本」操作时的成功率持平。这些操作员平均拥有 375 小时的遥操作经验,他们正是最初在原始机器人上采集训练数据的同一批专家。

打开网易新闻 查看精彩图片

除了广泛的任务泛化能力,研究团队还希望机器人干活又准又快。之前他们开发了一个叫 Recap 的算法,用强化学习专门优化特定任务的策略,让机器人动作更稳、速度更快。

以前的做法是为每个任务单独训练一个 Recap 专家模型。但现在他们换了个思路:把 Recap 训练过程中产生的经验连同策略元数据一起喂给 π0.7。

通过这种知识蒸馏,π0.7 这一个通用模型就学会了 Recap 优化的所有技巧。结果是,无论是叠衣服、做咖啡还是折盒子,π0.7 的成功率和速度都达到了之前专门训练的 Recap 专家模型水平,有时甚至更好。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

也就是说,现在他们不再需要为每个任务单独维护一个专家模型,一个通用模型就能搞定所有活儿,这也是语言模型领域发生过的重要转折。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

π0.7 是一个通用模型,因为它能够控制各种不同的机器人执行各种不同的任务。前面提到的那些都是针对特定能力(比如泛化性、跨本体迁移)做的专门测试,除此之外他们还试了更多日常场景 —— 像削蔬菜、用清洁剂擦玻璃门这些活儿它都能干。

打开网易新闻 查看精彩图片

π0.7 为何如此强大?

π0.7 为什么能泛化得这么开?核心在于数据要杂,但提示要细。

基础模型想泛化好,本来就得多喂各种来源的数据—— 他们汇集了几十种不同机器人的操作记录、人类演示视频,还有各种自主策略跑出来的实验数据。

不过,光是把这些数据混在一起可不行。关键是要在「提示词」上下功夫:不仅要告诉模型做什么,还要告诉它怎么做(steer)。

打开网易新闻 查看精彩图片

这套提示框架让 π0.7 可以把以前难以合并的数据源统一利用起来,包括:

有了这些丰富的标注信息,π0.7 就能放心地使用更多类型的数据。举个例子,那些质量不高的自主数据,本来可能会「教坏」模型,让模型学出低质量的动作。但只要给这类数据打上合适的标签,比如「质量偏低」或「速度偏慢」,模型就能正确理解,不会照单全收。

打开网易新闻 查看精彩图片

下图展示了模型架构的整体概况:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

π0.7 是一个统一的通用模型,它具备一种「组合式泛化」的能力 —— 不仅能听懂各种指令、看懂视觉子目标,而且开箱即用,表现相当出色。即便是以前需要专门训练、精细调优的「专家模型」才能完成的任务,它也能直接上手。

研究人员认为,像 π0.7 这样能力强、可操控的模型,未来有可能解决更复杂、从未见过的任务。怎么做到呢?让模型自己「想一想」,先思考可能用什么方法去完成任务,利用它遵循多种提示的能力,把这些想法落地成具体的动作,然后再根据执行结果反思、调整方案。

所以,高效的提示遵循和泛化能力,不仅让人更方便地告诉机器人「我想让你做什么」,还能让现代基础模型把它们的语义推理和问题解决能力「翻译」成物理世界中的行动。换句话说,让机器人真正理解并动手干活。

除了这些展望,Physical Intelligence 团队还分享了他们关于世界模型以及未来 scale 方向的看法。团队成员 Lucy Shi 提到,他们原本赌世界模型会是机器人泛化能力的关键,结果数据规模一拉大,VLA 基线就把 world model 吃掉了,而且架构简单得多。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

不过,他们也没有完全否定 world model。在 π0.7 中,他们仍然使用了轻量级 world model 来生成视觉子目标。

打开网易新闻 查看精彩图片

同时,Lucy Shi 也发现,现在模型能力是提上来了,但评估又成了新的瓶颈。数据那么多,你很难确定模型到底见没见过某个任务相关的数据,因此泛化也很难定义。这也是未来值得发力的一个方向

打开网易新闻 查看精彩图片