现在大家见过不少能跑马拉松、会跳舞的机器人,但很少有人知道,这些机器人有个致命短板 —— 没 “脑子”。
如果搞不定机器人的大脑模型,它们的价值就会大打折扣。
过去一年,虚拟世界的 AI 已经从只会聊天进化到能落地干活,商业价值得到验证,但物理世界的机器人在大脑模型上进展缓慢。
在红杉 AI 大会上,英伟达华人科学家范吉姆详解了背后原因和破局思路。
过去机器人的大脑模型叫 VLA,全称视觉语言动作模型,看起来三个元素地位平等,但实际语言才是第一优先级,视觉次之,动作最后。
这种结构带来的问题很明显:模型能轻松理解可乐罐、泰勒・斯威夫特这类名词知识,却搞不懂 “拿起”“倒水”“叠衣服” 这类物理动作。
这就是所谓的头重脚轻。
机器人真正需要的不只是知道 “这是什么”,更重要的是知道 “我做这个动作后,世界会变成什么样”,以及 “要达成目标状态,我该做什么动作”。
为什么是视频?研究发现,当视频模型学习足够多的视频后,通过预测下一帧画面,会慢慢掌握重力、浮力、光照反射这类物理规律。
比如谷歌最新的视频模型 Vue 三,不需要额外训练素材,就能真实模拟浮力和反射,甚至学会了走迷宫。
英伟达内部正在研发全新的机器人策略模型 Dream Zero,也就是 World Action Model(世界行动模型,简称 WAM)。
这个模型同时预测两件事:一是接下来的世界状态,二是接下来该采取的动作。
研究员把这种预测称为 “做梦”,如果 “梦境” 里的画面预测准确,对应的真实动作成功率就高;反之就会失败。
以后别再盯着 VLA 模型了,WAM 才是更有前景的方向。
但物理机器人需要的互动视频数据,人类从来没有系统积累过,得从零开始。
过去采集机器人数据靠遥操作:人戴 VR 眼镜、穿复杂装置远程控制机器人干活,但效率极低 —— 不仅受机器人数量和人类时间限制,实际有效采集时间每天可能仅 3 小时。
后来出现的通用操作接口 UMI,兼顾了采集速度和硬件对齐,但还是不够简单。
现在更高效的方式是第一视角人类视频:不需要操控机器人,只需要人戴着摄像头记录自己动手干活的全过程,经过简单处理就能用来训练机器人,还能完成分拣卡片、操作注射器、叠衣服这类灵巧任务。
去年 11 月,美国机器人公司 Generalist 发布的 GenZero 模型,用超过 27 万小时的第一视角视频数据,验证了这类数据遵循规模定律:预训练视频时长越长,操作能力越强。
今年 4 月推出的 Gnone 模型,训练数据提升到 50 万小时,任务平均成功率从 64% 涨到 99%,执行速度更是提升 3 倍,进一步确认了这套数据逻辑。
范吉姆预判,未来一两年,传统遥操作的数据占比会降到几乎可以忽略,人类第一视角视频会成为机器人训练数据的主力。
光靠预训练学知识还不够,还需要强化练习。
但在真实环境里做强化学习成本极高,搭建 100 万个机器人的训练环境几乎不可能。
所以需要把现实环境数字化,让机器人在虚拟世界练手,再回归真实场景,也就是 “现实到虚拟再到现实”。
英伟达的 DreamDojo 就是这样的机器人仿真世界模型,只要输入机器人的连续动作信号,就能输出动作在虚拟场景中的效果。
可以把它看成机器人的 “练功房”,机器人不用在真实世界摔杯子、撞桌子,先在虚拟环境练到 95 分,再到现实里补齐最后的 5 分细节。
最后范吉姆也提到了英伟达的核心逻辑:算力等于环境,环境等于数据,训练机器人的源动力还是算力。
虚拟世界的 AI 还在抢算力,物理世界的机器人很快也要加入这场算力争夺战。
至于算力供不应求的局面还要持续多久,大家可以在评论区聊聊。
热门跟贴