Jim Fan是英伟达机器人与AI研究组(GEAR Lab)负责人,过去几年主推的GR00T人形机器人基础模型用的是VLA(Vision-Language-Action,视觉-语言-动作)架构。他刚在Sequoia AI Ascent 2026上做了一场20分钟的演讲,主题叫《Robotics' End Game》,第一件事就是宣布VLA路线过时——包括他自己半年前还在推的GR00T。
取而代之的新范式叫世界动作模型(WAM),代表作是英伟达2月发布的DreamZero。他把这套思路叫"底层同构":复制LLM(Large Language Model,大语言模型)走过的三步(预训练→对齐→强化学习),用视频世界模型替代语言模型,用人类第一人称视频替代遥操作数据,最终在2040年前让机器人自己设计和制造下一代自己。他对此有95%的把握。
要点速览
VLA路线落幕:Jim公开宣告VLA路线过时,新范式叫世界动作模型(WAM),代表作是DreamZero(140亿参数)。
告别遥操作数据:遥操作物理上限低,预测一两年内降到接近0,被传感化人类数据取代。
神经缩放定律:EgoScale用21,000小时人类第一人称视频预训练,团队发现了灵巧操作的神经缩放定律(R² = 0.998)。
神经仿真器:Dream Dojo用44,000小时人类视频训练出一个完全绕过物理引擎的神经仿真器。
终局倒计时:给出2040年完成机器人终局的预测(物理自动研究),置信度95%。
从DGX-1签名到"底层同构"
Jim用一段往事开场。2016年夏天,就在OpenAI当时的办公室,黄仁勋穿着标志性皮夹克,抱着一块大金属托盘走进来,上面写着:"致Elon和OpenAI团队,致计算和人类的未来。"那是全球第一台DGX-1。
Jim当时是OpenAI的第一个实习生,赶紧排队去上面签了名。"那时候我完全不知道自己在签什么。"旁边一起签的还有Andrej Karpathy。这台机器现在在Computer History Museum收藏。
于是他做出了一个决定:抄作业,换个名字,叫"底层同构"(the Great Parallel)。把"模拟字符串的下一个状态"换成"模拟物理世界的下一个状态",通过动作微调收敛到机器人需要的那部分,最后让强化学习走完最后一公里。
VLA怎么了:参数都堆在了语言上
过去三年,机器人领域的主流架构是VLA(Vision-Language-Action,视觉-语言-动作模型)。英伟达自家的GR00T和Physical Intelligence的π0都属于这个类别。
Jim指出了结构性问题:其实这些模型该叫LVA,因为参数大头全堆在语言上了。语言是一等公民,视觉次之,动作只能垫底。
VLA擅长编码知识和名词,不擅长物理和动词。重心放在了不对的地方。
他举了RT-2原始论文里那个经典demo:让机器人把可乐罐推到Taylor Swift的照片旁边。模型没见过Taylor Swift,但能泛化过去。问题是,泛化的是名词(能认出Taylor Swift),而不是动词(该怎么推、找什么角度、用多大力)。
从AI垃圾视频到DreamZero
VLA不是答案,那下一个预训练范式是什么?结果发现是视频模型,它们在内部学会了模拟物理世界的下一个状态。
怎么把这些世界模型变有用?做动作微调。把"所有可能的未来"这种叠加态,收敛到一条对真实机器人有意义的动作轨迹上。
英伟达的答案叫DreamZero。这是一种新型策略模型,在执行动作之前先往未来"做梦"几秒钟,然后根据梦境行动。DreamZero同时解码下一帧画面和下一步动作。在这里,视觉和动作第一次真正成为了"一等公民"。
Jim坦率地承认DreamZero目前做不到每个任务都100%可靠。"它大概相当于GPT-2的阶段,方向对了,但表现还不够稳定可靠。"他给这个新架构起名叫WAM(World Action Models,世界动作模型)。
数据革命:从遥操作到"机器人不用参与的数据采集"
过去三年是遥操作(teleop)的黄金时代。但遥操作有一个硬上限:每台机器人每天24小时。
"我说一天24小时,那是骗自己的。实际一天能干3小时就不错了,还得看当天的'机器人之神'赏不赏脸——毕竟这帮机器天天闹脾气出毛病。"
怎么破局?把机器人的末端执行器直接戴在人手上,直接采集数据,完全绕过机器人本体。
英伟达方案是DexUMI,一种外骨骼装置。用外骨骼数据训练出的机器人策略可以完全自主运行,训练数据里没有任何遥操作数据。
EgoScale:21,000小时人类视频和缩放定律
英伟达搞了一个叫EgoScale的数据集,包含21,000小时人类第一人称视频,涵盖日常家务、办公室工作、工业操作等场景。
团队发现了灵巧操作的神经缩放定律:随着预训练数据量增加,模型在下游任务上的表现呈线性提升,拟合度R² = 0.998。
这意味着什么?机器人学习也遵循和LLM类似的缩放规律——只要数据够多,模型就能持续变强。
Dream Dojo:完全绕过物理引擎的神经仿真器
传统机器人训练需要在仿真环境里一遍遍试错,但仿真器和真实世界总有差距。
Jim团队的解决方案是Dream Dojo:用44,000小时人类视频训练出一个完全基于神经网络的世界模型,彻底绕过传统物理引擎。
这个神经仿真器能生成逼真的物理交互视频,机器人在"梦境"里训练,然后零样本迁移到真实世界。
2040年终局:机器人自己造下一代
Jim给出了一个大胆预测:2040年前,机器人将完成"物理自动研究"——也就是机器人自己设计和制造下一代机器人。他对此的置信度是95%。
路径已经很清晰:预训练(世界模型)→对齐(动作微调)→强化学习(自我改进)→自动研究(机器人造机器人)。
这和LLM的发展轨迹几乎一模一样。唯一的区别是,LLM处理的是文本,WAM处理的是物理世界。
"如果你相信深度学习,深度学习就信你。"
热门跟贴