英伟达华人科学家告诉你，机器人发展的最新趋势

你在彼方

2026-06-18 06:21 ·四川

现在大家见过不少能跑马拉松、会跳舞的机器人，但很少有人知道，这些机器人有个致命短板 —— 没 “脑子”。

如果搞不定机器人的大脑模型，它们的价值就会大打折扣。

过去一年，虚拟世界的 AI 已经从只会聊天进化到能落地干活，商业价值得到验证，但物理世界的机器人在大脑模型上进展缓慢。

在红杉 AI 大会上，英伟达华人科学家范吉姆详解了背后原因和破局思路。

过去机器人的大脑模型叫 VLA，全称视觉语言动作模型，看起来三个元素地位平等，但实际语言才是第一优先级，视觉次之，动作最后。

这种结构带来的问题很明显：模型能轻松理解可乐罐、泰勒・斯威夫特这类名词知识，却搞不懂 “拿起”“倒水”“叠衣服” 这类物理动作。

这就是所谓的头重脚轻。

机器人真正需要的不只是知道 “这是什么”，更重要的是知道 “我做这个动作后，世界会变成什么样”，以及 “要达成目标状态，我该做什么动作”。

为什么是视频？研究发现，当视频模型学习足够多的视频后，通过预测下一帧画面，会慢慢掌握重力、浮力、光照反射这类物理规律。

比如谷歌最新的视频模型 Vue 三，不需要额外训练素材，就能真实模拟浮力和反射，甚至学会了走迷宫。

英伟达内部正在研发全新的机器人策略模型 Dream Zero，也就是 World Action Model（世界行动模型，简称 WAM）。

这个模型同时预测两件事：一是接下来的世界状态，二是接下来该采取的动作。

研究员把这种预测称为 “做梦”，如果 “梦境” 里的画面预测准确，对应的真实动作成功率就高；反之就会失败。

以后别再盯着 VLA 模型了，WAM 才是更有前景的方向。

但物理机器人需要的互动视频数据，人类从来没有系统积累过，得从零开始。

过去采集机器人数据靠遥操作：人戴 VR 眼镜、穿复杂装置远程控制机器人干活，但效率极低 —— 不仅受机器人数量和人类时间限制，实际有效采集时间每天可能仅 3 小时。

后来出现的通用操作接口 UMI，兼顾了采集速度和硬件对齐，但还是不够简单。

现在更高效的方式是第一视角人类视频：不需要操控机器人，只需要人戴着摄像头记录自己动手干活的全过程，经过简单处理就能用来训练机器人，还能完成分拣卡片、操作注射器、叠衣服这类灵巧任务。

去年 11 月，美国机器人公司 Generalist 发布的 GenZero 模型，用超过 27 万小时的第一视角视频数据，验证了这类数据遵循规模定律：预训练视频时长越长，操作能力越强。

今年 4 月推出的 Gnone 模型，训练数据提升到 50 万小时，任务平均成功率从 64% 涨到 99%，执行速度更是提升 3 倍，进一步确认了这套数据逻辑。

范吉姆预判，未来一两年，传统遥操作的数据占比会降到几乎可以忽略，人类第一视角视频会成为机器人训练数据的主力。

光靠预训练学知识还不够，还需要强化练习。

但在真实环境里做强化学习成本极高，搭建 100 万个机器人的训练环境几乎不可能。

所以需要把现实环境数字化，让机器人在虚拟世界练手，再回归真实场景，也就是 “现实到虚拟再到现实”。

英伟达的 DreamDojo 就是这样的机器人仿真世界模型，只要输入机器人的连续动作信号，就能输出动作在虚拟场景中的效果。

可以把它看成机器人的 “练功房”，机器人不用在真实世界摔杯子、撞桌子，先在虚拟环境练到 95 分，再到现实里补齐最后的 5 分细节。

最后范吉姆也提到了英伟达的核心逻辑：算力等于环境，环境等于数据，训练机器人的源动力还是算力。

虚拟世界的 AI 还在抢算力，物理世界的机器人很快也要加入这场算力争夺战。

至于算力供不应求的局面还要持续多久，大家可以在评论区聊聊。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴