Jay 发自 凹非寺
量子位 | 公众号 QbitAI
Generalist AI的GEN-1热度,仍在发酵。
自节前那场引爆全网的Demo之后,昨日,创始人Pete Florence与团队,正式释出了GEN-1的技术博客。
与其说这是一篇技术分享,不如说这是一篇「教同行做事」的檄文。
一点甲不叠,上来就毫不留情地否定了当前炙手可热的世界模型与VLA之争。
直言所有关于技术路线的争论都是浪费时间。
现在关于「世界模型」的讨论,其实是由各种想法在驱动,确实很令人兴奋。
但问题是,你的目标是什么?
在他们看来,具身智能的关注点,应该回归到「目标」本身。
这正是Generalist选择「离经叛道」的根本原因。
完全不依赖任何已有路线。不走微调VLM加动作头的捷径,也不宣称自己是世界模型。
直接基于真机数据从零开训。
GEN-1大约99%的参数,都是从零开始训练的。
Generalist强调,这才是促成GEN-1实现飞跃的核心机密,也是他们真正想与行业分享的洞见。
这是他们从第一性原理出发,得出的最终答案:
想要实现物理AGI,最好的方式,或许就是「从零训练」这条看似不好走的路。
如果用原力灵机的话说,这叫「具身原生」。
是的,这条路线其实并非GEN-1首创。
就在两个月前,这家来自中国的具身智能新星,就已经用同样的逻辑,举办了一场「具身原生」主题的技术开放日,交出了一份惊艳的答卷。
原力灵机,具身原生大模型DM0,RoboChallenge真机评测全球第一。
所以,具身原生,到底有什么魔力?
GEN-1引爆具身GPT-3时刻
GEN-1的发布,无疑是2026年春节后,具身智能行业的第一次「大地震」。
创始人Pete Florence将其称为「GPT-3时刻」。
在多个任务中,该模型的成功率超过99%,完成任务的速度比此前最先进的模型快了大概3倍,甚至涌现出Failure Recovery(故障恢复)的能力。
用实际demo表现,验证了机器人领域的Scaling Law。
而此次Generalist在技术博客中的「暴论」,又在行业中掀起了一波余震。
只要数据和算力够,从零训,永远是赢家。
这句话放在2024年说,大概率会被当成疯话。
彼时VLA风潮席卷全球,拿一个预训练好的视觉语言模型,接上动作头微调一下,是兼顾效率和效果的公认最优解。
到了2026年初,世界模型又成了新的流量密码。
Generalist偏偏不站队。
他们从来没把自己的模型叫VLA,但也不宣扬自己是世界模型。
事实上,他们至今也没说自己是个什么技术路线,也不想去刻意贴标签。
但有一点却是无比清楚:无论靠什么方式,即便是「离经叛道」,他们也要彻底实现物理AGI。
GEN-1的博客引用了John Schulman的观点,犀利地划分了「想法驱动」与「目标驱动」两种研究范式。
前者,是雇佣兵。追涨杀跌,哪个方法火就选哪个,只为眼前的战功。
后者,是传教士。选定一个终极目标,然后埋头苦行,坚定不移地前行,扫清挡在路上的一切障碍。
Generalist选了后者。
基于这个第一性原理,Generalist做出了那个看似疯狂的决定——
不基于任何现有的基础模型,直接拿原始数据,冷启动。
在这方面,Generalist表现出了近乎偏执的「完美主义」。
在他们看来,微调别人的模型,意味着从第一行代码开始,天花板就被别人锁死了。
知识边界、认知能力、甚至底层的缺陷,都已注定,无法更改。
Generalist想要赌的,是明天。
而站在未来的时间节点回望,你会惊觉:
无论是VLM、VLA,还是世界模型,本质上都只是标签,数据匮乏时期的「拐杖」。
关键问题在于,当「身体」恢复健康、肌肉足够强壮后,我们还需要拐杖吗?
供给端的版图永远在日新月异。
这正是这场比赛最惊心动魄的地方。
就像F1赛车,规则制定者会刻意限制车胎耐久标准,正是在这些Trade-off(权衡)的极限施压下,才催生出无数截然不同的夺冠策略。
在LLM领域,虽然互联网数据不再是瓶颈,但算力成为了新的紧箍咒。
这才造就了OpenAI、Anthropic、DeepMind各自基于不同哲学思考,走出了截然不同的进化路线,因为资源只够他们选一条去All in。
因此,基于第一性原理做出的长期主义战略判断,才会更显得尤为珍贵。
最难的不是应对变化,而是在风云诡谲的环境中,找到那个屹立不变的锚点。
你不仅要计算当前的限制,更要预判这些限制将如何不可避免地发生崩塌。限制变化得越快,这种预判就越重要。
而在Generalist看来,机器人数据不够,仅仅是暂时的限制。
进入2026年,事实证明,这项限制条件,确实被改写了。
Generalist已经积累了超过50万小时的物理交互数据。
当原生数据足够丰富时,所有辅助手段终将被扫进历史的垃圾堆。
在他们看来,只有具身原生,从零开训这个「从无到有」的概念,是为那个即将到来的新世界而生的。
不过,GEN-1可能并非第一个具身原生模型。
在中国,同样有家All in这个概念的明星具身公司,并且早在今年2月份便高调发布过。
DM0,首个具身原生模型
一起再来看看原力灵机的这份成绩单吧。
DM0,RoboChallenge真机评测,双项全球第一。
- 单任务成功率:62%
- 多任务成功率:37.3%
排在它身后的,是Pi0.5、Pi0等一众明星模型。
而取得这一成绩的,仅仅是一个2.4B参数的模型。并且已全面开源。
2.4B是什么概念?
在大模型的军备竞赛中,这个参数量几乎可以被忽略不计。
但结果却令人哗然。
对于这个结果,原力灵机合伙人周而进在与「智能相对论」的对话中,淡定地表示:
在机器人领域,无脑堆参数量这件事非常荒诞。
周而进一针见血地指出,参数并非第一性原理。
事实上,一旦找到了真正「原生」的路线,现有具身数据量根本无法支撑起一个大参数模型。
那么,DM0所说的「原生」,到底「原生」在哪?
可以分为三个层面——
首先,是数据原生,这是拉开差距的关键。
当前行业的普遍做法是:下载一个预训练好的VLM,然后外挂一些机器人操作数据进行微调。
快是快,但问题同样致命:模型压根没见过关节电机长什么样。
它只是看过一些互联网数据,背诵了关于机械动作的文字描述。仅此而已。
这种「死记硬背」导致了大量无意义的训练,最终带来参数膨胀。
这或许是一种参数层面的「幻觉」。
如果模型只是针对单一机型记忆「拿起瓶子」时,每个关节该转多少度,那么一旦换一台硬件,它将束手无策。
因此,DM0走了完全不同的路。
它的训练数据融合了三类来源:
- 多模态互联网数据:奠定语义理解和常识推理的基座能力。
- 驾驶数据:赋予模型对物理世界的时空推理与动态感知。
- 具身传感数据:涵盖视觉、触觉、力觉等多维度信息,让模型真正「触摸」到这个世界。
模型的输入端,不再仅仅是图像和文字,更包含了机器人实操的具身轨迹数据。
两类数据共同优化,迫使模型同时学会「看懂世界」和「动手操作」。
这是一种极其聪明的做法,在让数据结构更立体的同时,也巧妙地实现了数据规模的Scaling。
在具体采集策略上,原力灵机的「原生」第一性原理同样体现得淋漓尽致——
正是因为完全目标导向,所以手段可以相当灵活。
比如对仿真数据的态度。
仿真数据量大管饱,但在精细操作场景中价值有限。例如「装水」任务,液体一晃,整个瓶子的质心就在变化,仿真环境难以准确建模。
因此,原力灵机在室内导航、刚性物体抓取等方面利用仿真数据,但在精细操作层面,则坚决侧重真机。
追求Scaling,但不迷信数据量,而是让每一份数据都发挥最大价值。
这恰好与Generalist在GEN-1博客中的判断形成呼应:供给端是会变化的,你要为即将到来的世界而构建。
其次是训练原生。
DM0将「理解世界」、「操作世界」、「预测世界」三种能力统一训练。
它不是先训练一个VLM,再接一个动作头(Action Head),而是从第一天起,就让这三种能力在同一个模型体内共同生长、相互塑造。
模型的设计紧贴真实世界需求,评价标准是真机效果,奖励函数来自真实场景的实践反馈。
第三是架构原生。
DM0采用天然支持多模态的架构设计,将力觉、触觉等维度的信息直接融入模型核心,而非外挂式地拼接传感器模块。
同时,它具备原生记忆能力,为长序列任务的执行提供坚实支撑。
三个「原生」叠加在一起,指向一个反直觉结果:模型虽小,却异常泛化。
对具身智能来说,泛化性是真正的试金石。
原力灵机将其拆解为四个维度:
- 对象泛化:同样是抓取,换个形状、材质、大小,照样能稳稳拿起。
- 场景泛化:在A车间能干活,搬到B车间也绝不掉链子。
- 任务泛化:不只局限于被教过的几个动作,更能自主排列组合,将简单动作串联成复杂的长程任务。
- 机型泛化:即便换一台胳膊更长、关节更多的机器人,也能直接驱动其上手干活。
四个维度,缺一不可。
而DM0,从第一天就在为这四个维度做准备。
原力灵机没有像行业里很多团队那样,先针对一种机型训一个专用模型,跑通demo再说。
DM0在预训练阶段就同时混合了操作、导航、全身控制三类任务,覆盖了8种构型迥异的机器人硬件。
相当「粗暴」。
这相当于对模型说:你不是喜欢死记硬背吗?
好,我把所有任务和所有本体混杂在一起扔给你——来,背!
事实证明,这一策略成功锁死了模型想通过死记硬背走捷径的念头。
「混乱」中,原力灵机倒逼模型不再执着于电机参数,转而去理解每次操作背后通用的逻辑和物理规律。
智能,就这样从原生的物理交互中,自然而然地生长了出来。
2.4B参数,RoboChallenge双项全球榜首。
2026年,是具身原生元年
GEN-1的博客里有句话,目标比方法更强大。
过去两年,行业最高频的问题是:机器人什么时候能进厂干活?
但或许,比这个问题更值得关注的是:
机器人什么时候能找到进厂干活的正确方法?
Generalist用GEN-1给出了答案。
从零训练原生模型,摒弃一切拐杖的「借力」,可能才是通往终局的唯一路线。
无独有偶,原力灵机的DM0,同样不约而同地在今年踏上了这条少有人走的路。
2026年或许不是具身智能的元年。但GEN-1和DM0的出现,正在为2026年烙上一个新标签:
具身原生元年。
热门跟贴