π0.7的泛化能力有多强？零样本纯靠口述就能用空气炸锅|实验|序列|机器人|模态|神经网络

当你在电商平台下单购入一台全新的空气炸锅，快递到了，拆开包装，你随手把说明书扔在一边，转头告诉家里的服务机器人，“把那个红薯放进空气炸锅里烤一下。”

放在之前，机器人从未见过这款炸锅，没有对应的操作程序，最可能的结局就是系统报错，任务失败。想让它学会用新电器，工程师必须重新收集演示数据、重新训练模型，一个完整的流程将耗费数周乃至数月。

但现在，这个困局正在被打破。2026 年 4 月 16 日，总部位于美国旧金山的明星机器人 AI 公司 Physical Intelligence（简称 PI 或 π）发布了其最新模型 π0.7。在一段令研发团队成员都感到意外的演示视频中，这个从未被明确训练过“如何使用空气炸锅”的模型，仅凭一步步的语言指引，就引导机器人打开炸锅盖、放入食材、合上机器，顺利完成这个它在训练数据中几乎没有见过的任务。

PI 是谁？

PI 成立于 2024 年初，总部位于旧金山。公司核心创始团队堪称 “全明星阵容”：联合创始人谢尔盖·莱文（Sergey Levine）是加州大学伯克利分校（UC Berkeley）机器人学习方向的知名教授，专注研究机器人强化学习与模仿学习十余年；切尔西·芬恩（Chelsea Finn）来自斯坦福大学，是元学习领域的顶尖学者；卡罗尔·豪斯曼（Karol Hausman）与布莱恩·伊希特（Brian Ichter）均来自 Google DeepMind，在大型机器人模型方向积累了深厚的工业界经验。

谢尔盖曾对外简洁地描述公司的目标：PI 的使命就是“把 ChatGPT 搬进机器人里”，开发能够控制任意机器人、完成任意任务的通用基础模型。这个定位决定了 PI 的商业逻辑：不造硬件，专为机器人提供“大脑”。PI 的模型可以授权给各家机器人厂商，成为整个行业的底层智能引擎。

资本市场对这一逻辑给出了极为积极的回应。2024 年 3 月完成 7,000 万美元种子轮融资后，PI 在两年内又相继完成 4 亿美元 A 轮融资和 6 亿美元 B 轮融资，估值来到 56 亿美元，成为全球具身智能赛道估值最高的纯模型公司之一。而最近的 2026 年 3 月，有消息传出，PI 正洽谈新一轮约 10 亿美元融资，估值有望超过 110 亿美元，较四个月前几乎翻番。

π0 家族演进史：从开源原型到通用大脑

让我们把时间线拉回 2024 年 10 月，彼时发布的 π0 是 PI 的开山之作。这是一个约 30 亿参数的视觉-语言-动作（VLA）模型，基座模型是谷歌的预训练视觉-语言模型 PaliGemma，并在来自7种不同机器人平台、68 项任务的数据上进行训练。

π0 采用了一种称为“流匹配”的动作生成方式，能以 50Hz 的频率实时生成平滑的运动轨迹，具备基本的跨机器人泛化能力。2025 年 2 月，PI 将 π0 的代码与权重完全开源，迅速成为机器人基础模型社区的重要参考基线。

2025 年 11 月发布的 π0-FAST 则在 π0 的基础上引入"快速动作空间分词器"（FAST），这代模型改善了语言指令的跟随能力，但推理计算成本也随之提升约 4~5 倍。在几乎同期亮相的 π0.6 中，PI 为之引入了一套名为RECAP（基于优势条件策略的经验与纠错强化学习）的算法，将专项任务的吞吐量翻倍，同时大幅降低了长时间运行的失败率。但 π0.6 的本质仍是“专家模型”，每个任务需要单独训练，单独优化。

直到 π0.7 问世，才成为这个故事最关键的转折点。作为一系列迭代模型中最新、能力最强的一代，PI 不再追求“为每项任务训练最佳专家”，而是试图用一个单一通用模型，在不进行任何任务特定微调的情况下，直接匹配甚至超越所有专家模型的表现，同时还展现出此前机器人模型从未真正实现的组合泛化能力。

全新的多模态提示框架与罕见的组合泛化能力

举一个经典例子，如果一个大语言模型既能将英文翻译成法文，也能将输出格式化为 JSON，它就能自然地完成"将英文翻译成法文并以 JSON 格式输出"这个新任务，尽管它可能从未见过这种组合的训练样本。这种将已有技能重新排列组合、解决新问题的能力，就是组合泛化。

在机器人领域，这种能力一直是一个理想化却难以实现的愿景。现有的 VLA 模型虽然能理解多样的语义概念，但在实际执行层面的表现基本停留在“模式记忆”阶段：见过的任务能做，没见过的就不行。想要完成新任务，必须重新收集数据、重新训练或微调专项模型。

π0.7 的出现，为机器人模型突破泛化限制带来了一丝曙光。而其实现组合泛化的核心技术路径，是一套全新的多模态提示框架。

在旧的训练策略中，给机器人的指令往往只有一个维度：做什么（语言描述任务目标）。但 π0.7 的训练将指令扩展成了一个多维度的上下文包，其中既有描述任务目标及子步骤的语言指令、描述如何执行任务的具体参数和控制模态标签，也包括一个内置轻量级视觉模型自动生成的视觉子目标图像。

图｜π0.7 的多模态提示框架（来源：Physical Intelligence）

这套多模态提示框架解决了一个之前被低估的核心问题：数据多样性与质量的矛盾。在以往的训练中，不同来源的数据往往无法混用，因为它们的执行风格、速度、质量参差不齐，混合训练反而会让模型学到仅仅达到“平均水平”的劣质策略，执行效果也差强人意。

π0.7 的解决方案是为每条训练数据添加显式的元数据标注，低质量的自动采集数据被标注为“低质量/低速度”，优质的人类演示被标注为“高质量/高速度”。模型在训练时学会了根据指令要求，选择对应风格的行为。推理时，只需在 Prompt 中指定“高质量、快速执行”，模型就会调用与该标签对应的最佳行为模式。

这一设计使 π0.7 能够将过去无法有效利用的数据全部纳入训练，包括质量较低的自动数据、来自不同机器人平台的数据，甚至人类操作视频等，大幅扩展了有效训练数据的规模与多样性。

从系统层面看，π0.7 使用了用 Gemma3 4B 作为基座模型，推理流程可以分为几个环节：在感知层，机器人的 RGB-D 摄像头持续流式传输图像，与机器人当前的运动历史一同输入系统。接着，系统将二者输入一个 50 亿参数量级的 Transformer 模型，结合语言指令与视觉子目标图像进行综合理解。

随后，高层策略模型根据任务指令，自动分解并生成语言子目标序列，选择性地调用世界模型生成对应的视觉子目标图像。行动专家模块则在约 100 毫秒内预测未来 50 步的动作序列，通过硬件抽象层将数据转换为各机器人平台专用的关节指令，同时在力度和速度范围内实施安全约束。整套系统可自动适配或灵活切换多种控制模式，如关节控制、末端执行器控制等，无需重新训练。

仅需动动嘴，模型就能自己学会控制新机器、完成新任务

在 PI 公布的论文中，研究人员展示了三个实用案例。其中最令人印象深刻、也最具想象空间的实验就是用自然语言教会机器人使用空气炸锅。

PI 的研究人员首先用一个直接指令测试模型，零样本地让机器人把红薯放进空气炸锅。结果是机器人做了若干次错误尝试，终究未能顺利完成任务，按照现有模型的水平，属于意料之中。

随后，研究人员换了一个策略：对机器人进行逐步的语言引导，就像你教一个第一次用这个电器的朋友：先告诉它打开抽屉，再告诉它放入食材，再告诉它关上，以此类推。在语言一步步引导下，机器人成功完成了这个它从未被专门训练过的任务。

最后一步更为关键。当研究人员用这种语言引导的方式多次走完流程之后，他们用这些语言指令序列微调了一个高层策略模型，该模型能够自动生成完成任务所需的语言子目标序列。此后，机器人无需人工逐步引导，可以完全自主地完成空气炸锅任务。换言之，模型从“被语言引导着做事”，进化到了“用语言引导自己做事”。

研究人员专门追溯了训练数据来源，结果只找到两条和空气炸锅高度相关的片段：机器人关闭空气炸锅抽屉的操作，以及开源数据集中一个同款机械臂放置塑料瓶的片段。这些片段的操作场景与真正完成任务时的运动轨迹差异很大，但模型仍然将其内化，并成功迁移到了新任务上。

第二个实验展示的是 π0.7 的跨机器人本体迁移能力。

PI 使用了名为UR5e双臂系统的机器人平台，这种机器人操作起来极为困难：两条粗重的机械臂惯性大、夹爪精度低。在 PI 的训练数据中，几乎没有其执行叠衣服任务的记录。

但当研究人员用另一套静态双手机器人收集数据并喂给 π0.7，命令它自主控制这台 UR5e 叠衣服时，它也顺利完成了。两台机器人在体型、姿态和结构上差异巨大，π0.7 在 UR5e 上采用了与原始训练机器人完全不同的运动策略，这意味着它能够实现真正意义上的技能迁移与适应。

量化验证显示，π0.7 在 UR5e 上叠衣服的成功率，与已在原始机器人上积累了平均 375 小时远程操作经验的专业人员、首次切换到 UR5e 时的“零样本”成功率相当。

第三个结果或许是最能改变行业预期的。此前，PI 的 π0.6 版本通过专项强化学习，在叠衣服、制作咖啡、组装纸箱等特定任务上分别训练了专门的“专家模型”。为每个任务分配一个专家，是当时取得最佳性能的最优策略。

π0.7 用一个单一通用模型，在这些任务上直接与这些专家进行了对比。结果是：π0.7 在成功率上与所有专家模型持平，在某些任务的吞吐量上甚至超过了专家模型。除了以上这些意在精确评估模型某项能力的具体控制实验，π0.7 在削黄瓜皮、做花生酱三明治、擦玻璃等灵巧任务上也表现出色，我们离全能家务机器人又近了一步。