极佳视界物理AGI双金字塔体系：数据与算法如何撑起Scaling Law？|agi|scaling|新论文|武汉|算法|视界|金字塔

机器之心发布

过去两年，具身智能赛道讨论最多的两个方向，一是「世界模型」，二是「VLA / 动作模型」。

前者以 NVIDIA Cosmos、Google Genie 为代表，主张通过生成式世界模型扩展数据供给；后者以 Physical Intelligence 的 π 系列、Diffusion Policy 等为代表，主张依靠大规模真机数据获得通用动作能力。

两条路线各自取得了显著进展，但谁也没有真正回答一个问题 ——当我们把「物理 AGI」当作目标时，到底需要什么样的算法体系和数据体系，才能跑通 Scaling？

5 月 20 日，武汉光谷。极佳视界（GigaAI）在「家庭场景子品牌发布会暨物理通用智能技术发布会」上，给出了一份相对完整的答案。

极佳视界 5.20 发布会现场

这场发布会公布了五件事：全球首个物理 AGI「双金字塔」体系；家庭场景子品牌「拾光 SeeLight」与首款家庭通用人形机器人「拾光 S1」同步亮相；国内首个真实家庭场景百台部署落地武汉，Q3 起规模化运营；下一代产品「拾光 S2」三季度发布，真实家庭创始版预定通道即日起开启；最后是一份 12 个月的路线图 —— GigaBrain-1、GigaBrain-2、GigaBrain-3 连发三代基础模型，目标是物理 AGI 的「GPT-3 时刻」。

信息量很大，其中我们最关注的，是物理 AGI 的「双金字塔」体系。

从 Scaling 的瓶颈说起

具身智能为什么至今没能跑通 Scaling Law？极佳视界合伙人、研发副总裁叶云在发布会上把问题归结为两条。

第一条在数据侧。真机数据精度最高，却受制于高成本与小规模；互联网视频规模庞大，却缺乏动作监督信号；仿真数据可无限扩展，却难以跨越 sim-to-real gap。任何单一来源，都无法同时满足 Scaling Law 所要求的规模、信息密度与真实性。

第二条在算法侧。当前以语言为主导的 VLA 范式，本质上是把视觉、动作 token 化后送入语言模型，并不擅长编码 3D 信息、物理因果与连续动作。换句话说，即便堆够了数据，目前的主流模型架构也未必能高效消化它们。

极佳视界合伙人、研发副总裁叶云

围绕这两条卡点，极佳视界提出的解决路径是把数据和算法分别按层次结构展开，一座面向数据的金字塔，一座面向算法的金字塔，二者耦合，缺一不可。这就是「双金字塔」体系的来源。

全球首个物理 AGI 「双金字塔」体系

从底层逻辑来看，这是物理 AGI 赛道第一次有公司把 Scaling 路径系统化展开。

五层数据金字塔

数据金字塔从底到顶依次为：互联网视频数据、真人数据、世界模型模拟器、仿真合成数据、真机数据

这一划分本身并不令人意外 —— 它基本对应了学术界过去两年关于具身数据来源的主要讨论：真机数据在金字塔顶端，精度最高、覆盖最窄；互联网视频在底部，规模最大、监督最弱；中间三层（真人示范、仿真、世界模型生成数据）则是最具工程化空间、也最被低估的部分。

真正值得注意的，是极佳视界在每一层都拿出了对应的工程化产品

真机数据由家庭版轮臂机器人「拾光 S1」和低成本真机数采硬件「Maker M01」协同采集；仿真合成数据与世界模型模拟器数据由自研具身世界模型平台「GigaWorld-0」系统化生成；真人数据由低成本手持数采硬件「U-01」和低成本 Ego 数采硬件「E-01」大规模采集；互联网视频数据则复用 YouTube、Panda-70M 等公开来源。

极佳视界「数据金字塔」

U-01、E-01 这种「低成本、非本体绑定」的数据采集硬件，类似 Stanford 团队 UMI 与 EgoMimic 的研究思路，被学术界公认是突破真机数据瓶颈的可行方向之一。

区别在于，极佳视界把它和自研机器人本体（S1）、世界模型平台（GigaWorld-0）一起做成了一套完整的全栈采集体系。单点研究并不稀奇，全栈跑通且每一层都有自研硬件做支撑，在国内具身智能公司中目前并不多见。

三层算法金字塔

算法金字塔从底到顶分为：世界模拟、动作对齐、经验强化。

极佳视界把这三层分别落到具体的模型上。

世界模拟层的代表是具身世界模型GigaWorld-1。它在世界模型领域权威评测 WorldArena 上以综合得分 62.34 击败 Wan、CogVideoX、Veo 3.1、Cosmos-Predict 等模型获得全球第一，是榜单中首个综合得分突破 60 分大关的具身世界模型。

动作对齐层包括GigaBrain-0 系列GigaWorld-Policy。前者是 VLA 路线的具身基础模型，在全球规模最大的真机评测 RoboChallenge 中以 51.67% 任务成功率位列全球第一，领先 π0.5 接近 10 个百分点；后者是世界动作模型，在面向家庭场景的全球权威评测平台 RoboCasa365 上击败 NVIDIA GR00T N1.5 与 π0.5 获得全球第一，成为榜单首个登顶的世界动作模型。

经验强化层是GigaBrain-0.5M*，通过「世界模型 + 强化学习」实现具身基模的自我进化。

极佳视界「算法金字塔」

单一榜单第一在具身智能赛道并不罕见，但同时在「世界模型 + 模仿学习 + 强化学习」三个方向上拿到全球权威评测第一，并把三层之间的数据流转关系打通，目前国内只有极佳视界一家做到。WorldArena、RoboChallenge、RoboCasa365 三大权威评测结果分别证明了其在感知 - 生成、真机操作、家庭场景泛化领域的三种核心能力。这三个「全球第一」也有力证明了「双金字塔」体系背后深厚的技术支撑。

跑通技术体系之后，下一站家庭

技术体系跑通之后，问题变成 —— 去哪里验证 Scaling 是否真的成立。极佳视界给出的答案是：真实家庭。

发布会上，极佳视界联合创始人、首席科学家朱政博士正式发布公司面向家庭场景的全新子品牌 ——「拾光 SeeLight」，定位「国内首个家庭通用机器人品牌」，由朱政担任品牌 CEO。

极佳视界联合创始人 & 首席科学家、拾光品牌 CEO 朱政

朱政在发布会上表示：「AGI 不该只停留在屏幕里。我们不是在讲一个遥远的未来故事，而是在把骨子里对物理 AGI 的信仰变成真实的产品，让物理 AGI 服务每一个人。」

品牌发布同期推出的第一代产品「拾光 S1」，被定义为「全球首个进入真实家庭场景的通用人形机器人」。S1 采用家庭版轮臂构型，搭载极佳视界自研的具身基础模型，具备从感知、理解到行动的完整闭环能力。

选择家庭、而不是工业线或物流作为物理 AGI 的首发场景，从技术角度看是一个值得讨论的决策。家庭场景的开放性、长尾性、人机交互复杂度，都远超工业场景 —— 正因为如此，它是验证「通用性」最严苛的试金石。极佳视界这种「先难后易」的场景选择，与它在算法侧的技术演进路径，应该是同一种思路。

视频链接：https://mp.weixin.qq.com/s/7UE0h6WvlWgYEHJQjOVivg

百台部署：第一笔可被验证的订单

具身智能赛道过去一年最被诟病的问题之一，是「发布会演示与真实场景使用之间的鸿沟」 —— 几乎所有公司都会展示样机能做什么，但鲜有公司能证明它在家里怎么用，能用多久。本次发布会上极佳视界给出的回应，是一笔已经落地的订单。

极佳视界宣布拾光 S1 已获得真实家庭场景百台订单，将率先部署于武汉光谷之寓社区（位于武汉光谷的真实居住社区），Q3 起开启规模化运营。这是公开信息中规模化家庭通用机器人部署的首例 —— 此前 Figure、1X 等海外厂商虽然披露过家庭试用，但都停留在个位数订单或员工家庭体验。

100 台 + 真实居住社区 + Q3 规模化运营这一组合，意味着一笔重要资产将开始积累：真实家庭的长期使用数据。

机器人进入武汉光谷之寓真实场景

这是 Scaling Law 在物理智能领域真正成立的关键。极佳方面在发布会透露：拾光 S1 的家庭场景展示体验空间将于 2026 年 5 月 31 日起开放参观。

拾光 S2：本体侧的系统性重构

发布会还预告了第二代产品「拾光 S2」将于 2026 年三季度正式发布。从披露的本体参数看，这不是一次小迭代：

底盘体积减少 60%，更适应家庭狭窄空间；电池续航提升 70%，并支持热换电，直接决定真实服务中的连续工作能力；操作范围扩大 40%，支持 2.2 米高度内任务执行。朱政在发布会上表示：「S2 的核心，不是某个参数变得更漂亮，而是整机开始更接近真实家庭所需要的『可用性』。」

拾光 S2 全新设计构型，定价、发售政策将于三季度全面揭晓

从产业视角，机器人本体侧的关键瓶颈其实是「能不能在真实家庭里长期稳定工作」—— 续航、热管理、关节寿命、安全冗余、维护成本。S2 的三项升级都直接对应这条线，工程取向相对克制。同时，真实家庭创始版预定通道，自即日起正式开启。

12 个月，三代基础模型

剑指「GPT-3 时刻」

发布会的最后一个部分，是极佳视界首次公布物理 AGI 基础模型的 12 个月路线图—— GigaBrain-1、GigaBrain-2、GigaBrain-3 连发三代。

GigaBrain-1 将于 2026 年第三季度发布，是全球首个基于「双金字塔」体系打造的物理 AGI 基础模型，目标是在物理智能泛化性上达到新高度。其后 GigaBrain-2 与 GigaBrain-3 加速 Scaling，其中 GigaBrain-3 将基于 1000 万小时视频数据 + 100 万小时世界 - 动作数据进行训练，剑指物理 AGI 的「GPT-3 时刻」。

GigaBrain-3 剑指物理 AGI 的「GPT-3 时刻」

GPT-3 在数字 AGI 历史上的意义，不在模型本身，而在「首次让 Scaling Law 显现涌现能力」的那个临界点 —— 当模型规模与数据规模到达某个阈值后，能力从量变跃迁为质变。物理 AGI 的「GPT-3 时刻」在理论上应该是同构的：数据规模（1000W + 100W 小时）和算法范式（双金字塔）到达某个临界点后，物理智能体表现出真正意义上的通用性。

这是一个可被检验的假设。未来 12 个月后，行业就会看到这个临界点是否真的存在、极佳视界给出的具体数字是否落在临界点之上。在具身智能赛道当前阶段，这种「用明确技术节点回应根本问题」的姿态并不常见 —— 同行的回答大多停留在「即将」、「快了」、「五年内」这一类时间模糊化的表态。

极佳视界把「物理 AGI 何时到来」拆解为「需要什么样的体系」 + 「什么时候到达」两个具体的技术命题，这是这场发布会真正区别于其他同类发布的地方。

三件事值得继续追踪

一场发布会，把过去三年的技术积累、当下的产品兑现、未来 12 个月的技术路线图，一次性铺开。

从技术圈的角度，接下来有三件事最值得追踪：

第一，「双金字塔」体系是否真的能跑通 Scaling Law —— 五层数据 + 三层算法的耦合关系是否成立，将由 GigaBrain-1（Q3 发布）与 GigaBrain-3（GPT-3 时刻）两次验证。

第二，百台家庭部署是否真的产生有效的数据闭环 —— 真实家庭长期使用数据是物理智能领域目前最稀缺的资产，如果闭环跑通，极佳视界在数据侧的护城河会随时间快速变深。

第三，GPT-3 时刻是否真的会在 12 个月内到来 —— 这是物理 AGI 赛道当前最具争议、也最有兑现价值的判断。

过去半年，关于「物理 AGI 何时到来」的讨论已成为行业高频话题，英伟达、Figure、Physical Intelligence、银河通用、智元…… 每一家都给出过自己的回答。但截至目前，没有任何一家公司像极佳视界这样，把这个问题拆解为「算法 + 数据体系」和时间表。

系统性方法论 + 可验证时间表的组合，这是这次发布会真正区别于其他同类发布的地方。