大家好,我是天南,具身算法研究员。
今天,Genesis AI 公开了它的第一份模型 GENE-26.5。
整个博客不起眼的位置上,藏着最重要的一句话。
硬件并非模型的下游环节,而是实现数据规模化的关键因素。
说人话就是,做大模型公司可以不碰硬件,做机器人基座模型的公司必须碰。
这句话出现的时间点很值得玩味。PI 在20天之前发布的 π0.7 给出的判断和Genesis恰好相反。
π0.7 的核心主张是 compositional generalization,组合式泛化。
一个模型,无任务特定训练就能跨硬件迁移。模型够强,硬件形态就不重要。
20 天。两家 CMU 出身、同样押 foundation model、融资都到位的公司, 在同一个核心命题上给出了相反的答案。
之前和大家聊过几次 Pi 和 Genesis。但这次有意思的地方在于,他们俩第一次站到了同一道墙的两个梯子上。
18 个月没动静,不是没在干活
先把时间线捋一下。
2024 年 12 月,Genesis 开源物理引擎在 X 上刷屏,号称比 Isaac Gym 快 10-80 倍,单卡 RTX4090 训运动 policy 只要 26 秒。当时朋友圈里几乎所有做仿真的人都在转。
2025 年 7 月,Genesis 正式公开,宣布拿了 1.05 亿美元种子轮。Eclipse 和 Khosla 联合领投,HongShan、Bpifrance 跟投,Eric Schmidt、Xavier Niel 个人参投。
然后就没声音了。
中间这 18 个月,Pi 那边完全是另一种节奏。π0.5、π*0.6(RECAP)、RL Tokens、π0.7。一个季度一代。
我之前刷了几次 X 想看 Genesis 在干什么,但几乎没有公开进展。。。
直到今天这份博客把答案揭出来。这 18 个月他们干的是这几件事。
第一,建团队。60 人,欧美双中心。欧洲 40-45%,美国 50-55%,三个办公地:巴黎、加州 San Carlos、伦敦。明显的法美双线结构,欧洲资本占比重。
第二,做硬件。自研一只叫 Wuji(无极)的灵巧手,20 个主动可反驱自由度,1:1 真人手尺寸,指掌覆盖软材质模拟皮肤接触动力学。
第三,做数据采集设备。EMF 加全掌触觉的密集触觉手套,号称比传统硬件便宜 100 倍,数据采集效率比遥操数据高 5 倍。Genesis 自己说的,没有第三方验证。
第四,自研控制中间件。把厂商默认的控制器换掉,自己写。
第五,攒数据。20 万小时多模态数据。配比没披露。
我看下来最让我意外的是第三和第四件事。Genesis 这家公司起家是仿真,团队基因里是「软件+物理引擎」。
结果他们花了一年半时间,去做手套、做手、做 EtherCAT 控制层。这个反差本身就是 Genesis 主张的具象化,他们不是嘴上说硬件是数据上游,是真把团队精力压到了硬件这边。
更值得讲一下的,是三位创始人的组合。
CEO 周衔(Zhou Xian),CMU 机器人博士,Genesis 仿真论文的核心作者。仿真派。
President Théophile Gervet,前 Mistral 研究科学家,CMU AI 博士。基础模型派。
co-founder Zhenjia Xu,UMI的共一。数据采集派。
这三个人在 Genesis 身上代表的,是仿真、基础模型和数采。Genesis 的「系统观」不是后期写出来的,是从公司成立那天就埋在三个人技术背景里的。这件事其他家很难抄,因为这种组合本身就稀缺。
还有一个细节得提。Genesis 的机械臂本体用的是国内天机的产品,不是自研。
本体可以买,但灵巧手、手套、控制中间件、模型必须自研。关键层全栈,非关键层外采。
惊艳的是同一个模型。
GENE-26.5 的 demo 一共 8 个。其中 7 个用同一个模型跑:做饭、实验室移液、玩魔方、做奶昔、吸管翻转、多物抓取、整理线束。
最后一个钢琴是单独训的 RL,专门测控制栈,不是 GENE 主模型。Genesis 自己标注得很清楚,这点要先夸一下,很实在。
但真正让我停下来看了三遍的,是博客里那张五维评价表,很有意思。
spatial precision,空间精度
temporal composition,时间编排
contact richness,接触丰富度
contact coordination,接触协同度
tool-mediated interaction,工具中介交互
我第一反应不是「这是一个评估工具」,而是「这是一把新尺」。
你仔细看就会发现,这五维几乎是为夹爪量身打造的反向题。
两指夹爪在接触丰富度上的天花板就是两个接触点。在 接触协同性上几乎不存在协同,只有「夹住」和「松开」两个状态。
在使用工具上更尴尬,工具不是为夹爪设计的。空间精度 和 时序组合还能通过算法补一补,但接触层面那两条是结构性低分,补不了。
也就是说,Genesis 在用这张表给行业重新刻度。重新刻度之后,这些年很多家做 demo 都用的两指方案,在Genesis的评价下会很难看。
Pi 早期 demo 里的 ALOHA 双臂方案,Skild 那台用夹爪的厨房机器人,Figure 02 当年的展示,都得在这个尺下重新打一次分。
而且这张表的「覆盖维度数」和「任务难度」是正相关的。Genesis 给做饭打了五维全勾,长序列、双手协同、工具使用、丰富接触、协同接触全占。
你把它放到任何一个夹爪 demo 上,五维大概率只能勾两到三条。
我看完五维表,又把 demo 视频回去刷了一遍。有几个细节比五维表更有杀伤力。
打鸡蛋的时候蛋液粘到了手指上,机器人下一步顺手拿抹布擦了下手,再回去切番茄。这个动作是状态依赖的,没人会预先教它「手脏了去擦」。
切番茄的时候,一只手用刀,另一只手拿刀的侧面把切好的番茄揽起来放进锅里。我们平时切菜也是这么干的。
移液器要挂回支架的时候,机器人在同一只手内重新调整握持姿势。手内调握。这个动作过去基本只在专门做 in-hand manipulation 的论文里看到。
多物抓取那个 demo,一只手同时抓四个不同大小的物体,用四种不同的抓取类型。这是夹爪永远做不到的事,你一把夹爪同时只能用一种「抓」的方式。
这些细节加起来在说一件事:Genesis 在重新定义「什么叫 manipulation」。过去说操作,大家默认是 pick-and-place,把东西从 A 搬到 B。
Genesis 的定义是「在时间和空间上编排接触的艺术」。一根手指可以推,两根手指可以捏,三根手指能稳住,四根能调方向,整只手能强力抓握和使用工具,两只手之间还要无缝协同。
这个定义如果能立住,整个行业的能力评估系统都得跟着改。
3ms,Genesis把硬件做到了极致
讲完模型讲控制层。
Genesis 这次最容易被大家跳过的一节,可能是控制中间件。但这一节其实是 Genesis 思考最新颖的一处。
我先说一个反直觉的事实。当训练数据来自遥操作时,机器人控制层做得多糟糕都不太影响最终性能。因为模型在训练阶段见到的就是带着误差的数据,部署时见到的也是同样的误差,前后一致。模型已经把「机器人特定的延迟和跟踪误差」隐式吸收进训练信号了。
这是过去几年 VLA 路线能跑起来的一个隐藏前提。
但当训练数据里出现了非机器人来源的数据,人类示范、第一人称视频、第三人称视频,这个前提就崩了。人的运动不带机器人的延迟和误差。模型如果不主动把这个 gap 缩小,部署时就会出现训练-执行的错配。
而且这个 gap 不能通过「在训练时人为加噪声」补上。因为机器人误差是状态相关的,会随构型、速度、负载、接触条件、控制器增益、传动行为时刻变化。无法被准确建模。
所以 Genesis 的逻辑是:只要训练想用人类数据,控制层就回避不掉。
他们的解法是把厂商默认的控制器换掉。Genesis 用的天机机械臂本身已经是行业里相对顶级,但他们还是自己重写了控制中间件。
数据是这样的。
新中间件端到端延迟在调参状态下 3ms,运行频率 500Hz。通过单个 EtherCAT Y 从网络驱动双臂,使用 PREEMPT_RT 内核,为实时控制线程分配独立 CPU 核心。EtherCAT 主站用了 KickCAT,支持分布式时钟。
跟踪精度对比。15cm 直径圆形轨迹,4 秒画完。厂商默认控制器平均误差大约 20mm,Genesis 中间件减到大约 2mm。
延迟对比。单关节正弦轨迹阻抗模式下,厂商默认 80ms,Genesis 自研系统 9ms 以内,调参后到 3ms。
10 倍精度提升,将近 30 倍延迟降低。
讲到这块我得说一句,3ms 这个数字单看没什么感觉。但你把它放回 Pi 的处境就有意思了。
Pi 的官方立场是「硬件早就准备好了,瓶颈在于智能」。这个判断在 VLA 路线下是对的。但一旦 Pi 真的想吃更大规模的人类数据,而 π0.7 的 组合式泛化暗示他们迟早要走这条路,他们就得回头处理控制层。
也就是说,Genesis 在控制中间件上花的功夫,是 Pi 迟早要补的课。
Pi vs Genesis 是同一道墙的两个梯子
Pi 之前接受智源的采访里说:
「硬件早在很早前就准备好了。瓶颈在于智能。」 「机器人形态不重要,最终会有一个巨大的基础模型驱动所有机器人。」 「我们也许过去高估了世界的多样性,100 个家庭的训练数据足以泛化到全新家庭。」
Genesis 在这次博客里说的几个关键判断。
「机器人操作很难当做纯模型训练问题来解决。」 「硬件不是模型的下游。」 「人类几乎所有的体力劳动都从未被记录过。」
把这两家公司的观点放在一起,对比的张力很明显。
Pi 说世界没那么多样化,100 个家庭就够。Genesis 说所有体力劳动都没被记录,要 20 万小时手套数据。
Pi 说硬件不重要。Genesis 说硬件不是数据的下游,是上游。
Pi 用季度迭代证明「算法压力比硬件压力大」。Genesis 用 18 个月沉默证明「硬件准备充分了模型就能起飞」。
谁对?
我现在不敢下判断。两家都对,两家都可能错。
如果 π0.7 的 组合式泛化 真的能 scaling 上去,硬件形态就真的不重要,Genesis 在硬件上花的时间就是过度投资。
如果 Genesis 的五维评价成为行业新的标准,Pi 这些年的 demo 就得重新打分。
真正的判定标准不在 demo,不在分数,不在论文。可能会是 2026 下半年到 2027 年初的客户付费数据。
我们拭目以待。
回到开头那句话。
「硬件不是模型的下游」。
20 天前,Pi 用 π0.7 把「模型为王、形态无关」做到了它能做到的最远处。
20 天后,Genesis 用 GENE-26.5 做到了它能做到的最远处。
两家都做到了它们各自路径的最强版本。但只能活一条的可能性,也存在。
我自己倾向于这么看。Pi 的路径上限取决于「模型能不能消化任何形态的数据」这个假设。如果这个假设成立,Pi 赢,而且赢得很彻底,一个模型驱动所有机器人。
如果这个假设不成立,模型必须吃更好的数据,Genesis 这种从源头解决 embodiment gap 的路就是必经之路。
但话说回来,Pi 一年发四代模型的迭代速度,也可能在我写完这篇文章后的下一个季度,就把所有这些判断推翻。
具身这行业的有趣之处就在这里。。。每个月都在重新洗牌。
2026 年 5 月,分水岭月份。
这把分歧不会很快收敛。但今天它第一次完整地,摆在了所有人的台面上~
热门跟贴