机器人的终局：英伟达Jim Fan宣告VLA时代结束，WAM登场

可达鸭面面观

2026-05-10 17:30 ·北京

Jim Fan是英伟达机器人与AI研究组（GEAR Lab）负责人，过去几年主推的GR00T人形机器人基础模型用的是VLA（Vision-Language-Action，视觉-语言-动作）架构。他刚在Sequoia AI Ascent 2026上做了一场20分钟的演讲，主题叫《Robotics' End Game》，第一件事就是宣布VLA路线过时——包括他自己半年前还在推的GR00T。

取而代之的新范式叫世界动作模型（WAM），代表作是英伟达2月发布的DreamZero。他把这套思路叫"底层同构"：复制LLM（Large Language Model，大语言模型）走过的三步（预训练→对齐→强化学习），用视频世界模型替代语言模型，用人类第一人称视频替代遥操作数据，最终在2040年前让机器人自己设计和制造下一代自己。他对此有95%的把握。

要点速览

要点速览

VLA路线落幕：Jim公开宣告VLA路线过时，新范式叫世界动作模型（WAM），代表作是DreamZero（140亿参数）。

告别遥操作数据：遥操作物理上限低，预测一两年内降到接近0，被传感化人类数据取代。

神经缩放定律：EgoScale用21,000小时人类第一人称视频预训练，团队发现了灵巧操作的神经缩放定律（R² = 0.998）。

神经仿真器：Dream Dojo用44,000小时人类视频训练出一个完全绕过物理引擎的神经仿真器。

终局倒计时：给出2040年完成机器人终局的预测（物理自动研究），置信度95%。

从DGX-1签名到"底层同构"

从DGX-1签名到"底层同构"

Jim用一段往事开场。2016年夏天，就在OpenAI当时的办公室，黄仁勋穿着标志性皮夹克，抱着一块大金属托盘走进来，上面写着："致Elon和OpenAI团队，致计算和人类的未来。"那是全球第一台DGX-1。

Jim当时是OpenAI的第一个实习生，赶紧排队去上面签了名。"那时候我完全不知道自己在签什么。"旁边一起签的还有Andrej Karpathy。这台机器现在在Computer History Museum收藏。

于是他做出了一个决定：抄作业，换个名字，叫"底层同构"（the Great Parallel）。把"模拟字符串的下一个状态"换成"模拟物理世界的下一个状态"，通过动作微调收敛到机器人需要的那部分，最后让强化学习走完最后一公里。

VLA怎么了：参数都堆在了语言上

VLA怎么了：参数都堆在了语言上

过去三年，机器人领域的主流架构是VLA（Vision-Language-Action，视觉-语言-动作模型）。英伟达自家的GR00T和Physical Intelligence的π0都属于这个类别。

Jim指出了结构性问题：其实这些模型该叫LVA，因为参数大头全堆在语言上了。语言是一等公民，视觉次之，动作只能垫底。

VLA擅长编码知识和名词，不擅长物理和动词。重心放在了不对的地方。

他举了RT-2原始论文里那个经典demo：让机器人把可乐罐推到Taylor Swift的照片旁边。模型没见过Taylor Swift，但能泛化过去。问题是，泛化的是名词（能认出Taylor Swift），而不是动词（该怎么推、找什么角度、用多大力）。

从AI垃圾视频到DreamZero

从AI垃圾视频到DreamZero

VLA不是答案，那下一个预训练范式是什么？结果发现是视频模型，它们在内部学会了模拟物理世界的下一个状态。

怎么把这些世界模型变有用？做动作微调。把"所有可能的未来"这种叠加态，收敛到一条对真实机器人有意义的动作轨迹上。

英伟达的答案叫DreamZero。这是一种新型策略模型，在执行动作之前先往未来"做梦"几秒钟，然后根据梦境行动。DreamZero同时解码下一帧画面和下一步动作。在这里，视觉和动作第一次真正成为了"一等公民"。

Jim坦率地承认DreamZero目前做不到每个任务都100%可靠。"它大概相当于GPT-2的阶段，方向对了，但表现还不够稳定可靠。"他给这个新架构起名叫WAM（World Action Models，世界动作模型）。

数据革命：从遥操作到"机器人不用参与的数据采集"

数据革命：从遥操作到"机器人不用参与的数据采集"

过去三年是遥操作（teleop）的黄金时代。但遥操作有一个硬上限：每台机器人每天24小时。

"我说一天24小时，那是骗自己的。实际一天能干3小时就不错了，还得看当天的'机器人之神'赏不赏脸——毕竟这帮机器天天闹脾气出毛病。"

怎么破局？把机器人的末端执行器直接戴在人手上，直接采集数据，完全绕过机器人本体。

英伟达方案是DexUMI，一种外骨骼装置。用外骨骼数据训练出的机器人策略可以完全自主运行，训练数据里没有任何遥操作数据。

EgoScale：21,000小时人类视频和缩放定律

EgoScale：21,000小时人类视频和缩放定律

英伟达搞了一个叫EgoScale的数据集，包含21,000小时人类第一人称视频，涵盖日常家务、办公室工作、工业操作等场景。

团队发现了灵巧操作的神经缩放定律：随着预训练数据量增加，模型在下游任务上的表现呈线性提升，拟合度R² = 0.998。

这意味着什么？机器人学习也遵循和LLM类似的缩放规律——只要数据够多，模型就能持续变强。

Dream Dojo：完全绕过物理引擎的神经仿真器

传统机器人训练需要在仿真环境里一遍遍试错，但仿真器和真实世界总有差距。

Jim团队的解决方案是Dream Dojo：用44,000小时人类视频训练出一个完全基于神经网络的世界模型，彻底绕过传统物理引擎。

这个神经仿真器能生成逼真的物理交互视频，机器人在"梦境"里训练，然后零样本迁移到真实世界。

2040年终局：机器人自己造下一代

2040年终局：机器人自己造下一代

Jim给出了一个大胆预测：2040年前，机器人将完成"物理自动研究"——也就是机器人自己设计和制造下一代机器人。他对此的置信度是95%。

路径已经很清晰：预训练（世界模型）→对齐（动作微调）→强化学习（自我改进）→自动研究（机器人造机器人）。

这和LLM的发展轨迹几乎一模一样。唯一的区别是，LLM处理的是文本，WAM处理的是物理世界。

"如果你相信深度学习，深度学习就信你。"

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴