机器之心发布

过去两年,具身智能赛道讨论最多的两个方向,一是「世界模型」,二是「VLA / 动作模型」。

前者以 NVIDIA Cosmos、Google Genie 为代表,主张通过生成式世界模型扩展数据供给;后者以 Physical Intelligence 的 π 系列、Diffusion Policy 等为代表,主张依靠大规模真机数据获得通用动作能力。

两条路线各自取得了显著进展,但谁也没有真正回答一个问题 ——当我们把「物理 AGI」当作目标时,到底需要什么样的算法体系和数据体系,才能跑通 Scaling?

5 月 20 日,武汉光谷。极佳视界(GigaAI)在「家庭场景子品牌发布会暨物理通用智能技术发布会」上,给出了一份相对完整的答案。

打开网易新闻 查看精彩图片

极佳视界 5.20 发布会现场

这场发布会公布了五件事:全球首个物理 AGI「双金字塔」体系;家庭场景子品牌「拾光 SeeLight」与首款家庭通用人形机器人「拾光 S1」同步亮相;国内首个真实家庭场景百台部署落地武汉,Q3 起规模化运营;下一代产品「拾光 S2」三季度发布,真实家庭创始版预定通道即日起开启;最后是一份 12 个月的路线图 —— GigaBrain-1、GigaBrain-2、GigaBrain-3 连发三代基础模型,目标是物理 AGI 的「GPT-3 时刻」。

信息量很大,其中我们最关注的,是物理 AGI 的「双金字塔」体系。

从 Scaling 的瓶颈说起

具身智能为什么至今没能跑通 Scaling Law?极佳视界合伙人、研发副总裁叶云在发布会上把问题归结为两条。

第一条在数据侧。真机数据精度最高,却受制于高成本与小规模;互联网视频规模庞大,却缺乏动作监督信号;仿真数据可无限扩展,却难以跨越 sim-to-real gap。任何单一来源,都无法同时满足 Scaling Law 所要求的规模、信息密度与真实性。

第二条在算法。当前以语言为主导的 VLA 范式,本质上是把视觉、动作 token 化后送入语言模型,并不擅长编码 3D 信息、物理因果与连续动作。换句话说,即便堆够了数据,目前的主流模型架构也未必能高效消化它们。

打开网易新闻 查看精彩图片

极佳视界合伙人、研发副总裁 叶云

围绕这两条卡点,极佳视界提出的解决路径是把数据和算法分别按层次结构展开, 一座面向数据的金字塔,一座面向算法的金字塔,二者耦合,缺一不可。这就是「双金字塔」体系的来源。

打开网易新闻 查看精彩图片

全球首个物理 AGI 「双金字塔」体系

从底层逻辑来看,这是物理 AGI 赛道第一次有公司把 Scaling 路径系统化展开。

五层数据金字塔

数据金字塔从底到顶依次为:互联网视频数据、真人数据、世界模型模拟器、仿真合成数据、真机数据

这一划分本身并不令人意外 —— 它基本对应了学术界过去两年关于具身数据来源的主要讨论:真机数据在金字塔顶端,精度最高、覆盖最窄;互联网视频在底部,规模最大、监督最弱;中间三层(真人示范、仿真、世界模型生成数据)则是最具工程化空间、也最被低估的部分。

真正值得注意的,是极佳视界在每一层都拿出了对应的工程化产品

真机数据由家庭版轮臂机器人「拾光 S1」和低成本真机数采硬件「Maker M01」协同采集;仿真合成数据与世界模型模拟器数据由自研具身世界模型平台「GigaWorld-0」系统化生成;真人数据由低成本手持数采硬件「U-01」和低成本 Ego 数采硬件「E-01」大规模采集;互联网视频数据则复用 YouTube、Panda-70M 等公开来源。

打开网易新闻 查看精彩图片

极佳视界「数据金字塔」

U-01、E-01 这种「低成本、非本体绑定」的数据采集硬件,类似 Stanford 团队 UMI 与 EgoMimic 的研究思路,被学术界公认是突破真机数据瓶颈的可行方向之一。

区别在于,极佳视界把它和自研机器人本体(S1)、世界模型平台(GigaWorld-0)一起做成了一套完整的全栈采集体系。单点研究并不稀奇,全栈跑通且每一层都有自研硬件做支撑,在国内具身智能公司中目前并不多见。

三层算法金字塔

算法金字塔从底到顶分为:世界模拟、动作对齐、经验强化。

极佳视界把这三层分别落到具体的模型上。

世界模拟层的代表是具身世界模型GigaWorld-1。它在世界模型领域权威评测 WorldArena 上以综合得分 62.34 击败 Wan、CogVideoX、Veo 3.1、Cosmos-Predict 等模型获得全球第一,是榜单中首个综合得分突破 60 分大关的具身世界模型。

动作对齐层包括GigaBrain-0 系列GigaWorld-Policy。前者是 VLA 路线的具身基础模型,在全球规模最大的真机评测 RoboChallenge 中以 51.67% 任务成功率位列全球第一,领先 π0.5 接近 10 个百分点;后者是世界动作模型,在面向家庭场景的全球权威评测平台 RoboCasa365 上击败 NVIDIA GR00T N1.5 与 π0.5 获得全球第一,成为榜单首个登顶的世界动作模型。

经验强化层是GigaBrain-0.5M*,通过「世界模型 + 强化学习」实现具身基模的自我进化。

打开网易新闻 查看精彩图片

极佳视界「算法金字塔」

单一榜单第一在具身智能赛道并不罕见,但同时在「世界模型 + 模仿学习 + 强化学习」三个方向上拿到全球权威评测第一,并把三层之间的数据流转关系打通,目前国内只有极佳视界一家做到。WorldArena、RoboChallenge、RoboCasa365 三大权威评测结果分别证明了其在感知 - 生成、真机操作、家庭场景泛化领域的三种核心能力 。 这三个「全球第一」也有力证明了「双金字塔」体系背后深厚的技术支撑。

跑通技术体系之后,下一站家庭

技术体系跑通之后,问题变成 —— 去哪里验证 Scaling 是否真的成立。极佳视界给出的答案是:真实家庭。

发布会上,极佳视界联合创始人、首席科学家朱政博士正式发布公司面向家庭场景的全新子品牌 ——「拾光 SeeLight」,定位「国内首个家庭通用机器人品牌」,由朱政担任品牌 CEO。

打开网易新闻 查看精彩图片

极佳视界联合创始人 & 首席科学家、拾光品牌 CEO 朱政

朱政在发布会上表示:「AGI 不该只停留在屏幕里。我们不是在讲一个遥远的未来故事,而是在把骨子里对物理 AGI 的信仰变成真实的产品,让物理 AGI 服务每一个人。」

品牌发布同期推出的第一代产品「拾光 S1」,被定义为「全球首个进入真实家庭场景的通用人形机器人」。S1 采用家庭版轮臂构型,搭载极佳视界自研的具身基础模型,具备从感知、理解到行动的完整闭环能力。

选择家庭、而不是工业线或物流作为物理 AGI 的首发场景,从技术角度看是一个值得讨论的决策。家庭场景的开放性、长尾性、人机交互复杂度,都远超工业场景 —— 正因为如此,它是验证「通用性」最严苛的试金石。极佳视界这种「先难后易」的场景选择,与它在算法侧的技术演进路径,应该是同一种思路。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/7UE0h6WvlWgYEHJQjOVivg

百台部署:第一笔可被验证的订单

具身智能赛道过去一年最被诟病的问题之一,是「发布会演示与真实场景使用之间的鸿沟」 —— 几乎所有公司都会展示样机能做什么,但鲜有公司能证明它在家里怎么用,能用多久。本次发布会上极佳视界给出的回应,是一笔已经落地的订单。

极佳视界宣布拾光 S1 已获得真实家庭场景百台订单,将率先部署于武汉光谷之寓社区(位于武汉光谷的真实居住社区),Q3 起开启规模化运营。这是公开信息中规模化家庭通用机器人部署的首例 —— 此前 Figure、1X 等海外厂商虽然披露过家庭试用,但都停留在个位数订单或员工家庭体验。

100 台 + 真实居住社区 + Q3 规模化运营这一组合,意味着一笔重要资产将开始积累:真实家庭的长期使用数据。

打开网易新闻 查看精彩图片

机器人进入武汉光谷之寓真实场景

这是 Scaling Law 在物理智能领域真正成立的关键。极佳方面在发布会透露:拾光 S1 的家庭场景展示体验空间将于 2026 年 5 月 31 日起开放参观。

拾光 S2:本体侧的系统性重构

发布会还预告了第二代产品「拾光 S2」将于 2026 年三季度正式发布。从披露的本体参数看,这不是一次小迭代:

底盘体积减少 60%,更适应家庭狭窄空间;电池续航提升 70%,并支持热换电,直接决定真实服务中的连续工作能力;操作范围扩大 40%,支持 2.2 米高度内任务执行。朱政在发布会上表示:「S2 的核心,不是某个参数变得更漂亮,而是整机开始更接近真实家庭所需要的『可用性』。」

打开网易新闻 查看精彩图片

拾光 S2 全新设计构型,定价、发售政策将于三季度全面揭晓

从产业视角,机器人本体侧的关键瓶颈其实是「能不能在真实家庭里长期稳定工作」—— 续航、热管理、关节寿命、安全冗余、维护成本。S2 的三项升级都直接对应这条线,工程取向相对克制。同时,真实家庭创始版预定通道,自即日起正式开启。

12 个月,三代基础模型

剑指「GPT-3 时刻」

发布会的最后一个部分,是极佳视界首次公布物理 AGI 基础模型的 12 个月路线图—— GigaBrain-1、GigaBrain-2、GigaBrain-3 连发三代。

GigaBrain-1 将于 2026 年第三季度发布,是全球首个基于「双金字塔」体系打造的物理 AGI 基础模型,目标是在物理智能泛化性上达到新高度。其后 GigaBrain-2 与 GigaBrain-3 加速 Scaling,其中 GigaBrain-3 将基于 1000 万小时视频数据 + 100 万小时世界 - 动作数据进行训练,剑指物理 AGI 的「GPT-3 时刻」。

打开网易新闻 查看精彩图片

GigaBrain-3 剑指物理 AGI 的「GPT-3 时刻」

GPT-3 在数字 AGI 历史上的意义,不在模型本身,而在「首次让 Scaling Law 显现涌现能力」的那个临界点 —— 当模型规模与数据规模到达某个阈值后,能力从量变跃迁为质变。物理 AGI 的「GPT-3 时刻」在理论上应该是同构的:数据规模(1000W + 100W 小时)和算法范式(双金字塔)到达某个临界点后,物理智能体表现出真正意义上的通用性。

这是一个可被检验的假设。未来 12 个月后,行业就会看到这个临界点是否真的存在、极佳视界给出的具体数字是否落在临界点之上。在具身智能赛道当前阶段,这种「用明确技术节点回应根本问题」的姿态并不常见 —— 同行的回答大多停留在「即将」、「快了」、「五年内」这一类时间模糊化的表态。

极佳视界把「物理 AGI 何时到来」拆解为「需要什么样的体系」 + 「什么时候到达」两个具体的技术命题,这是这场发布会真正区别于其他同类发布的地方。

三件事值得继续追踪

一场发布会,把过去三年的技术积累、当下的产品兑现、未来 12 个月的技术路线图,一次性铺开。

从技术圈的角度,接下来有三件事最值得追踪:

第一,「双金字塔」体系是否真的能跑通 Scaling Law —— 五层数据 + 三层算法的耦合关系是否成立,将由 GigaBrain-1(Q3 发布)与 GigaBrain-3(GPT-3 时刻)两次验证。

第二,百台家庭部署是否真的产生有效的数据闭环 —— 真实家庭长期使用数据是物理智能领域目前最稀缺的资产,如果闭环跑通,极佳视界在数据侧的护城河会随时间快速变深。

第三,GPT-3 时刻是否真的会在 12 个月内到来 —— 这是物理 AGI 赛道当前最具争议、也最有兑现价值的判断。

过去半年,关于「物理 AGI 何时到来」的讨论已成为行业高频话题,英伟达、Figure、Physical Intelligence、银河通用、智元…… 每一家都给出过自己的回答。但截至目前,没有任何一家公司像极佳视界这样,把这个问题拆解为「算法 + 数据体系」和时间表。

系统性方法论 + 可验证时间表的组合,这是这次发布会真正区别于其他同类发布的地方。