开创VLA的那帮人，正在抛弃VLA|人工智能|机器人|神经网络

编辑 | 泽南

具身智能真的变天了？

上个星期，明星创业公司 Generalist AI 发布的 GEN-1 模型，凭借在各项机器人任务中的极高成功率引发了行业震动。

GEN-1 在三个核心维度上都实现了跨越式提升：成功率超过 99%，速度提升 2-3 倍，只需要上代模型 1/10 的数据和微调，就能达到同样的性能表现。

Generalist AI 成立于 2024 年，核心愿景是让「通用型机器人」成为现实。凭借其极具潜力的技术路线，该公司在早期就获得了包括英伟达和 boldstart ventures 等机构的投资支持。

该公司的核心创始团队可谓豪华 ——CEO Pete Florence 来自 Google DeepMind，CTO Andrew Barry 来自波士顿动力，首席科学家 Andy Zeng 曾任 Google DeepMind 研究科学家。加入 Generalist 前，该公司的部分成员参与了 PaLM-E、RT-2 等模型的研发与发布，负责将 ChatGPT、GPT-4 规模化推广至数亿用户，或参与 Atlas、Spot、Stretch 等关键自动驾驶技术与机器人系统开发。

在 GEN-1 之前，他们推出的 GEN-0 模型已经验证了「物理交互数据可以转化为可预测、可扩展的机器智能」。

GEN-1 发布后，Generalist CEO Pete Florence 本周发布的一篇博客文章再次成为了社区讨论的热点。在文中，作者直指目前具身智能领域流行的 VLA（视觉 - 语言 - 动作）模型趋势。

作为 VLA 概念的共同开创者，他们现在却表示要「抛弃」VLA 乃至世界模型的标签定义，因为在他们看来，过于在意工具的标签，反而会限制通往物理 AGI 的想象力。

让我们看看他是怎么说的。

在 GEN-1 中，大约 99% 的参数是从零开始训练的。

在过去，这或许会被视为一种疯狂之举。但对于 Generalist 而言，这却是一个深思熟虑的抉择。这一决策源于我们坚定不移的信念 —— 我们为此已潜心耕耘两年之久 —— 即：只要拥有足够的数据，通过对基础模型保持完全的掌控权，便能以更快的步伐推动前沿技术的突破。

GEN-1 绝非那种仅仅生硬地「外挂」了机器人动作模块的微调版视觉 - 语言模型（VLM），它也不仅仅是一个单纯的「世界模型」。它是一个拥有「一等公民」地位、专为物理交互场景而原生构建的基础模型。越来越多的证据表明：只要具备充足的数据与算力，从零开始进行训练（training from scratch）始终是致胜之道。

在 2026 年初，「世界模型」正迎来属于它的高光时刻；而在 2023 至 2025 年间，风头正劲的则是「视觉 - 语言 - 动作模型」（VLA）。追逐热点与潮流，本就是学术研究领域的常态。

在 Generalist，我们从未将自家模型归类为 VLA 或世界模型。这绝非偶然。事实上，我们正是 VLA 概念的共同开创者之一；自 2023 年起，我们便持续在机器人领域发表关于世界模型的研究成果，而我们在这一领域的实际探索与耕耘，更是早在数年前便已启动。

既然如此，为何我们偏不给模型贴上标签呢？原因有三：首先，你的终极目标远比你所使用的「工具」标签本身更为重要；其次，正如你不会将所有的矩形都统称为正方形一样，概念的界定需要精准；最后，是因为技术供给侧的格局终将发生演变。接下来，我们将逐一深入剖析这三个层面的考量。

目标比工具上的标签更重要

首先也是最重要的是，目标比方法更具力量。几年前，John Schulman 在一篇对比「理念驱动」与「目标驱动」研究的文章中，对这一区别做出了精辟的阐述：理念驱动型研究往往追随潮流，致力于改进最新的技术方法；而目标驱动型研究则首先确立一个具体的预期成果，随后着手解决实现该成果过程中遇到的任何障碍。

这种区分至关重要，因为它不仅决定了你会构建出什么，更关键的是，它决定了你不会被哪些事物所干扰。正如 Schulman 所指出的 —— 这也是我本人的切身体会 —— 通常而言，目标驱动型路径往往更具成效。

当前围绕「世界模型」展开的讨论，本质上属于理念驱动型研究。诚然，这些技术本身确实令人振奋。但构建一个「世界模型」本身，或许并非真正的终极目标 —— 即便对于那些正投身于世界模型研究的科研人员而言，情况亦是如此。真正值得深思的问题在于：你的终极目标究竟是什么？

我们认为，一个极具价值且值得长期追求的目标，是实现机器人技术的「完全零样本」（Fully Zero-shot）能力：即让机器人能够以极高的成功率和运行速度，执行那些它们从未见过的各类任务，且在执行过程中，完全无需任何针对特定任务的训练数据。如果所涉任务种类繁多、复杂度极高且具有足够的应用价值，那么实现这一目标，便可被视为需要具备「完全物理通用人工智能」（Full Physical AGI）能力的标志。

不过，在此终极目标达成之前，我们还可以设定一系列具体的阶段性里程碑，从而构建一条循序渐进的进阶路径：与其一步到位追求「完全零样本」，不如先允许为特定任务（姑且称之为任务 X）提供少量机器人训练数据，并确保机器人能以极高的性能水平完成该任务。

如此一来，目标驱动型的研发路线图便清晰可见：在持续提升任务执行性能的同时，逐步削减所需训练数据量 X。假如我们能仅凭大约一小时的机器人训练数据，便在各类任务中普遍实现 99% 以上的成功率，那么这项技术将具备广阔的商业应用前景。这便是一个具体、可量化且完全独立于具体技术方法之外的「目标驱动型」里程碑。

此外，正如我此前的经验所印证的那样：在科研工作中，若能确立既具体又充满雄心的目标，往往能起到事半功倍的效果：它将成为一个强有力的跳板，引领研究工作向更广阔的领域拓展。

奇妙的是，这种做法往往比单纯选择某种「看似能解决各类问题」的技术方法要有效得多。一个典型的例证便是：最早问世的多模态语言模型之一，其最初的研发初衷正是为了服务于一项特定的机器人技术目标。然而，在随后的评估测试中，该模型却在医疗诊断等一系列基准测试中展现出了卓越的性能。

这一成果的诞生，正是源于一种「凡是解决问题所需，皆全力以赴」的务实心态，而非那种死守某种特定技术方法不放的僵化思维。相反，以目标为导向能赋予你灵活性，让你得以考量任何有助于达成目标的方法。

我们究竟能走多远？

其次，若仅通过「非此即彼」（or）的问题（例如必须严格在方法 A 和方法 B 之间二选一）来框定机器学习，这种做法是具有局限性的。更深层的真谛在于去追问：「我们究竟能走多远？」或者更进一步，去对既定目标与约束条件建立更为深刻的理解。

人们往往很自然地认为，事物必须被归入特定的类别，或者在多种方法或资源来源中必须「择其一」而用之。几乎每一个学科都可能陷入这种思维陷阱。举几个贴近现实的例子：在机器人学发展的早期阶段，曾流行着这样一种观点 —— 研究者必须在「感知」与「控制」这两大领域中择一深耕。

又如在 2020 年代初期，许多 AI 公司的产品经理曾普遍认为，每一个细分应用场景都注定需要一套专属的定制模型，却未能意识到「大规模协同训练」（cotraining）所能带来的巨大收益。

然而，真正值得探究的问题其实是：在既定的约束条件下，我们究竟能实现怎样的突破？我们究竟能走多远？而在这些约束条件中，又有哪些是可以被打破或消除的？我们究竟能走得多远？举一个具体的例子：著名的 Chinchilla 论文正是这种思维理念结出的硕果，它不仅荣获了 NeurIPS 大会的「杰出论文奖」，更在工业界产生了立竿见影的巨大影响。

在绝大多数情况下，一个「非此即彼」（or）的问题，往往可以转化为一个「兼而有之」（and）的问题；随后，这个问题又可进一步转化为「各类成分应各占多少比例」的配比问题；最终，它将升华为一个关于宏大目标与核心约束条件的深层探究。

在过去两年间，我们正是秉持着这一理念，对自身的训练方法进行了持续的迭代与优化。在过去一年多的时间里，我们一直在积极尝试融合来自不同领域的思想 —— 涵盖了所谓的「视觉语言动作模型」（VLA）、「世界模型」（World Models），乃至更为前沿的探索方向。当一个模型所融合的跨学科能力越丰富，将其强行归入某一特定类别也就越发困难。

归根结底，真正具有决定性意义的唯有一点：它究竟能带我们走多远？

视觉-语言模型只是一根「拐杖」？

第三，供给侧将会发生变化。你不仅要考量当前的制约因素，更要思考这些制约因素将如何不可避免地发生演变。制约因素变化得越快，这一点就显得愈发重要。

有人指出，当前的一个制约因素在于机器人领域的数据量尚不充裕。但这并非一种具有长远眼光的观点。如今，随着我们掌握了超过 50 万小时的物理交互数据，我们已能够摆脱这一制约，去探索更深层的问题。

同理，将「视觉 - 语言」训练引入机器人领域，其背后的一大动因正是因为机器人领域自身的数据积累尚显不足。因此，从某种意义上讲，在机器人数据尚未充裕的过渡期内，所有的「视觉 - 语言」训练都可以被视为一种有益的「拐杖」。诚然，世间现存的视频数据（以字节计）确实远多于语言数据，但归根结底，它依然只是一根「拐杖」。那么，当不再需要这根「拐杖」时，下一步该走向何方？届时，你还会想要依赖这根「拐杖」吗？

迈向物理 AGI

目标的力量远胜于具体的方法；我们应当在既定的制约条件下寻求最优解，而非局限于既有的类别划分中去「选赛道」；况且，这些制约因素本身也是注定会发生变化的。

自 Generalist 成立之初，我们便始终致力于对一切进行彻底的重构与反思，旨在推动具身通用人工智能（Physical AGI）的实现。正是基于这一理念，我们打造出了 GEN-1—— 这是一个完全从零开始训练的模型，其训练所依据的正是我们所拥有的（亦是全球规模最大的）物理交互数据集。无论是模型的架构设计、训练流程，还是推理执行机制，其每一个环节都经过了精心设计与反复迭代；在这一过程中，我们完全摆脱了那些由他人出于不同目的而预设的决策框架所带来的束缚。

我们已向世人展示了该模型所具备的惊人潜能 —— 从机器人领域的 Scaling Laws，到仅需数小时便能泛化适应全新环境与具身形态的能力，再到通过大规模预训练所涌现出的即兴智能…… 而这一切，仅仅是一个开端。

参考内容：

https://x.com/peteflorence/status/2041529286562402804