当你在电商平台下单购入一台全新的空气炸锅,快递到了,拆开包装,你随手把说明书扔在一边,转头告诉家里的服务机器人,“把那个红薯放进空气炸锅里烤一下。”
放在之前,机器人从未见过这款炸锅,没有对应的操作程序,最可能的结局就是系统报错,任务失败。想让它学会用新电器,工程师必须重新收集演示数据、重新训练模型,一个完整的流程将耗费数周乃至数月。
但现在,这个困局正在被打破。2026 年 4 月 16 日,总部位于美国旧金山的明星机器人 AI 公司 Physical Intelligence(简称 PI 或 π)发布了其最新模型 π0.7。在一段令研发团队成员都感到意外的演示视频中,这个从未被明确训练过“如何使用空气炸锅”的模型,仅凭一步步的语言指引,就引导机器人打开炸锅盖、放入食材、合上机器,顺利完成这个它在训练数据中几乎没有见过的任务。
PI 是谁?
PI 成立于 2024 年初,总部位于旧金山。公司核心创始团队堪称 “全明星阵容”:联合创始人谢尔盖·莱文(Sergey Levine)是加州大学伯克利分校(UC Berkeley)机器人学习方向的知名教授,专注研究机器人强化学习与模仿学习十余年;切尔西·芬恩(Chelsea Finn)来自斯坦福大学,是元学习领域的顶尖学者;卡罗尔·豪斯曼(Karol Hausman)与布莱恩·伊希特(Brian Ichter)均来自 Google DeepMind,在大型机器人模型方向积累了深厚的工业界经验。
谢尔盖曾对外简洁地描述公司的目标:PI 的使命就是“把 ChatGPT 搬进机器人里”,开发能够控制任意机器人、完成任意任务的通用基础模型。这个定位决定了 PI 的商业逻辑:不造硬件,专为机器人提供“大脑”。PI 的模型可以授权给各家机器人厂商,成为整个行业的底层智能引擎。
资本市场对这一逻辑给出了极为积极的回应。2024 年 3 月完成 7,000 万美元种子轮融资后,PI 在两年内又相继完成 4 亿美元 A 轮融资和 6 亿美元 B 轮融资,估值来到 56 亿美元,成为全球具身智能赛道估值最高的纯模型公司之一。而最近的 2026 年 3 月,有消息传出,PI 正洽谈新一轮约 10 亿美元融资,估值有望超过 110 亿美元,较四个月前几乎翻番。
π0 家族演进史:从开源原型到通用大脑
让我们把时间线拉回 2024 年 10 月,彼时发布的 π0 是 PI 的开山之作。这是一个约 30 亿参数的视觉-语言-动作(VLA)模型,基座模型是谷歌的预训练视觉-语言模型 PaliGemma,并在来自7种不同机器人平台、68 项任务的数据上进行训练。
π0 采用了一种称为“流匹配”的动作生成方式,能以 50Hz 的频率实时生成平滑的运动轨迹,具备基本的跨机器人泛化能力。2025 年 2 月,PI 将 π0 的代码与权重完全开源,迅速成为机器人基础模型社区的重要参考基线。
2025 年 11 月发布的 π0-FAST 则在 π0 的基础上引入"快速动作空间分词器"(FAST),这代模型改善了语言指令的跟随能力,但推理计算成本也随之提升约 4~5 倍。在几乎同期亮相的 π0.6 中,PI 为之引入了一套名为RECAP(基于优势条件策略的经验与纠错强化学习)的算法,将专项任务的吞吐量翻倍,同时大幅降低了长时间运行的失败率。但 π0.6 的本质仍是“专家模型”,每个任务需要单独训练,单独优化。
直到 π0.7 问世,才成为这个故事最关键的转折点。作为一系列迭代模型中最新、能力最强的一代,PI 不再追求“为每项任务训练最佳专家”,而是试图用一个单一通用模型,在不进行任何任务特定微调的情况下,直接匹配甚至超越所有专家模型的表现,同时还展现出此前机器人模型从未真正实现的组合泛化能力。
全新的多模态提示框架与罕见的组合泛化能力
举一个经典例子,如果一个大语言模型既能将英文翻译成法文,也能将输出格式化为 JSON,它就能自然地完成"将英文翻译成法文并以 JSON 格式输出"这个新任务,尽管它可能从未见过这种组合的训练样本。这种将已有技能重新排列组合、解决新问题的能力,就是组合泛化。
在机器人领域,这种能力一直是一个理想化却难以实现的愿景。现有的 VLA 模型虽然能理解多样的语义概念,但在实际执行层面的表现基本停留在“模式记忆”阶段:见过的任务能做,没见过的就不行。想要完成新任务,必须重新收集数据、重新训练或微调专项模型。
π0.7 的出现,为机器人模型突破泛化限制带来了一丝曙光。而其实现组合泛化的核心技术路径,是一套全新的多模态提示框架。
在旧的训练策略中,给机器人的指令往往只有一个维度:做什么(语言描述任务目标)。但 π0.7 的训练将指令扩展成了一个多维度的上下文包,其中既有描述任务目标及子步骤的语言指令、描述如何执行任务的具体参数和控制模态标签,也包括一个内置轻量级视觉模型自动生成的视觉子目标图像。
这套多模态提示框架解决了一个之前被低估的核心问题:数据多样性与质量的矛盾。在以往的训练中,不同来源的数据往往无法混用,因为它们的执行风格、速度、质量参差不齐,混合训练反而会让模型学到仅仅达到“平均水平”的劣质策略,执行效果也差强人意。
π0.7 的解决方案是为每条训练数据添加显式的元数据标注,低质量的自动采集数据被标注为“低质量/低速度”,优质的人类演示被标注为“高质量/高速度”。模型在训练时学会了根据指令要求,选择对应风格的行为。推理时,只需在 Prompt 中指定“高质量、快速执行”,模型就会调用与该标签对应的最佳行为模式。
这一设计使 π0.7 能够将过去无法有效利用的数据全部纳入训练,包括质量较低的自动数据、来自不同机器人平台的数据,甚至人类操作视频等,大幅扩展了有效训练数据的规模与多样性。
从系统层面看,π0.7 使用了用 Gemma3 4B 作为基座模型,推理流程可以分为几个环节:在感知层,机器人的 RGB-D 摄像头持续流式传输图像,与机器人当前的运动历史一同输入系统。接着,系统将二者输入一个 50 亿参数量级的 Transformer 模型,结合语言指令与视觉子目标图像进行综合理解。
随后,高层策略模型根据任务指令,自动分解并生成语言子目标序列,选择性地调用世界模型生成对应的视觉子目标图像。行动专家模块则在约 100 毫秒内预测未来 50 步的动作序列,通过硬件抽象层将数据转换为各机器人平台专用的关节指令,同时在力度和速度范围内实施安全约束。整套系统可自动适配或灵活切换多种控制模式,如关节控制、末端执行器控制等,无需重新训练。
仅需动动嘴,模型就能自己学会控制新机器、完成新任务
在 PI 公布的论文中,研究人员展示了三个实用案例。其中最令人印象深刻、也最具想象空间的实验就是用自然语言教会机器人使用空气炸锅。
PI 的研究人员首先用一个直接指令测试模型,零样本地让机器人把红薯放进空气炸锅。结果是机器人做了若干次错误尝试,终究未能顺利完成任务,按照现有模型的水平,属于意料之中。
随后,研究人员换了一个策略:对机器人进行逐步的语言引导,就像你教一个第一次用这个电器的朋友:先告诉它打开抽屉,再告诉它放入食材,再告诉它关上,以此类推。在语言一步步引导下,机器人成功完成了这个它从未被专门训练过的任务。
最后一步更为关键。当研究人员用这种语言引导的方式多次走完流程之后,他们用这些语言指令序列微调了一个高层策略模型,该模型能够自动生成完成任务所需的语言子目标序列。此后,机器人无需人工逐步引导,可以完全自主地完成空气炸锅任务。换言之,模型从“被语言引导着做事”,进化到了“用语言引导自己做事”。
研究人员专门追溯了训练数据来源,结果只找到两条和空气炸锅高度相关的片段:机器人关闭空气炸锅抽屉的操作,以及开源数据集中一个同款机械臂放置塑料瓶的片段。这些片段的操作场景与真正完成任务时的运动轨迹差异很大,但模型仍然将其内化,并成功迁移到了新任务上。
第二个实验展示的是 π0.7 的跨机器人本体迁移能力。
PI 使用了名为UR5e双臂系统的机器人平台,这种机器人操作起来极为困难:两条粗重的机械臂惯性大、夹爪精度低。在 PI 的训练数据中,几乎没有其执行叠衣服任务的记录。
但当研究人员用另一套静态双手机器人收集数据并喂给 π0.7,命令它自主控制这台 UR5e 叠衣服时,它也顺利完成了。两台机器人在体型、姿态和结构上差异巨大,π0.7 在 UR5e 上采用了与原始训练机器人完全不同的运动策略,这意味着它能够实现真正意义上的技能迁移与适应。
量化验证显示,π0.7 在 UR5e 上叠衣服的成功率,与已在原始机器人上积累了平均 375 小时远程操作经验的专业人员、首次切换到 UR5e 时的“零样本”成功率相当。
第三个结果或许是最能改变行业预期的。此前,PI 的 π0.6 版本通过专项强化学习,在叠衣服、制作咖啡、组装纸箱等特定任务上分别训练了专门的“专家模型”。为每个任务分配一个专家,是当时取得最佳性能的最优策略。
π0.7 用一个单一通用模型,在这些任务上直接与这些专家进行了对比。结果是:π0.7 在成功率上与所有专家模型持平,在某些任务的吞吐量上甚至超过了专家模型。除了以上这些意在精确评估模型某项能力的具体控制实验,π0.7 在削黄瓜皮、做花生酱三明治、擦玻璃等灵巧任务上也表现出色,我们离全能家务机器人又近了一步。
PI 的研究科学家阿什温·巴拉克里希纳(Ashwin Balakrishna)感慨道,π0.7 能做到的已经远超预期:“此前我只要深入了解训练数据的内容,就能猜到模型能力的边界,但 π0.7 颠覆了这一切,随便买一个齿轮组,问它能转动这个齿轮吗,它都能做到。”
具身智能的“GPT 时刻”,还有多远?
早期的大型语言模型需要针对每个具体的下游任务进行大量微调,才能取得最佳性能,直到 GPT 系列模型的出现改变了这一范式:通过足够大规模、足够多样的预训练,模型可以在不针对特定任务微调的情况下直接完成多种语言任务,并展现出组合泛化在内的涌现能力。
机器人领域如今正处在一个类似的早期阶段,即需要针对每项任务训练对应的专家模型。但 PI 的联合创始人给出了判断:一旦机器人模型越过组合泛化的能力门槛,其能力的增长速度就将不再与数据量线性相关,而会呈现超线性增长。
难道,拐点已至?PI 的研究人员在论文全篇中使用了非常审慎的措辞,他们坦承,π0.7 展示的是组合泛化的“初步迹象”,模型目前还无法响应类似“给我烤片面包”等高层级模糊指令,仍需人类将其分解为具体步骤。同时,提示工程的质量对结果影响巨大,一次糟糕的引导就可能导致成功率从 95% 暴跌至 5%。
谢尔盖曾拒绝给出机器人模型真正落地的预期时间表,只表示,“进展比我两年前预期的要快”。现在看来,这句话或许是最值得行业认真对待的一句话:π0.7 展示的是方向,而非终点。未来,机器人的“可用性”可能只需要一个足够通用的模型,和足够清晰的语言表达。
参考内容:
https://www.pi.website/blog/pi07
运营/排版:何晨龙
热门跟贴