在电影《黑客帝国》中,有一个令人印象深刻的场景:主角尼奥躺在椅子上,各种格斗技能程序通过数据线被直接“上传”到他的大脑中。几分钟后,他睁开眼睛,自信地说出那句经典台词:“I know Kung Fu。”

8 月 14 日,智元机器人发布首个机器人世界模型开源平台——Genie Envisioner(GE),让电影“黑客帝国”中的场景照进了现实。

训练机器人掌握一项技能是一件复杂、漫长且昂贵的事情。当前机器人学习系统普遍采用分阶段的开发模式,数据收集、模型训练和策略评估,每个环节都相互独立,并需要专门的基础设施和任务特定调优。碎片化的架构大幅增加了开发复杂度和迭代周期,同时还限制了系统的可扩展性。

不同于传统训练模式,智元的GE平台将将策略学习、仿真和评估这三大核心环节,全部统一到一个视频生成模型框架中 。让机器人在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行,不极大提高了训练效率,还显著加强了泛化能力。

打开网易新闻 查看精彩图片

GE平台由三大核心组件和一个套件构成

为了能够便于理解GE平台的功能,这里借用“黑客帝国”的场景来做类比

GE-Base (世界基础模型):虚拟世界架构师

电影中:Morpheus团队能构建出一个名为“The Construct”的纯白虚拟空间,并在其中加载任何需要的训练场景。

Genie中:GE-Base就是机器人的“虚拟世界架构师”。它通过深度学习超过100万个真实机器人工作视频,掌握了我们世界的“物理规律”。当接到一个训练任务,例如“学会擦桌子”——GE-Base能够立刻构建出一个高清、逼真的视频训练场景,完整地展示机器人如何一步步完成这个任务。这个场景是自洽且符合物理逻辑的。

打开网易新闻 查看精彩图片

GE-Act (动作模型):动作控制

电影中:当技能上传完毕,尼奥的身体就能在虚拟或现实世界中,将脑海中的格斗知识转化为精确的拳脚。

Genie中:GE-Act能瞬间理解“架构师”构建的宏大蓝图(那段预测视频),并将其翻译成机器人身体可以理解的、精确到毫秒的动作指令。最神奇的是,这个过程效率极高,它无需真的把整个训练视频播放一遍,而是直接从场景的潜在结构中提取出关键动作,实现了“知识”到“行动”的无缝衔接。

打开网易新闻 查看精彩图片

GE-Sim (仿真器):虚拟训练空间

电影中:“The Construct”是进行技能训练和实战模拟的核心场所。

Genie中:GE-Sim就是那台强大的“虚拟训练空间”。它是一个可控的神经模拟器,允许工程师设定不同的初始条件和动作脚本,然后生成无数个平行的“训练场景”来进行测试和演练。这使得机器人的训练成本大大降低,迭代速度呈指数级提升,一小时内就能完成数千次“虚拟排练”。

打开网易新闻 查看精彩图片

EWMBench (评估套件):现实检验程序

电影中:虚拟训练必须尽可能模拟现实,否则学到的技能在实战中就会失效。

Genie中:EWMBench就是“现实检验程序”。它是一套专业的评估标准,用来检验“训练场景”的质量。它会严格审视:这个场景里的物理规则对吗?机器人的行为和训练目标一致吗?场景稳定、没有出现Bug吗?这个程序确保了机器人的学习是在一个高质量、贴近现实的虚拟环境中进行的。

打开网易新闻 查看精彩图片

Genie的惊人之处

超强的“跨平台”上传能力

GE 平台不仅能为熟悉的“大脑”上传技能,还能快速适配新的“身体”。实验中,一个主要在智元自家机器人上训练的Genie模型,仅需1小时的新数据进行微调,就能成功地为一款全新的机器人“上传”技能,并指导它完成折叠衣物、打包纸箱等高难度任务。相比之下,其他顶尖模型在这些任务上几乎完全失败。

长时序任务的精确执行能力

由于GE 平台的训练场景是连贯且符合逻辑的,它能够指导机器人完成需要长时记忆和精细操作的复杂任务。比如,机器人需要先看到盒子里糖果的颜色,盖上盖子后,再根据记忆选择正确的印章来盖章。这种能力是传统“死记硬背”式模型难以企及的。

高效、低成本的“训练”

整个“技能上传”流程的统一和自动化,使得教会机器人一项新技能的成本和时间都大大降低,为通用机器人的大规模应用扫清了关键障碍。

GE 平台的能力边界

目前,GE-Base主要学习的是单一平台的数据,未来需要让它“周游世界”,学习更多类型机器人和场景的数据。

技能的类型单一:当前的训练主要集中于桌面级的双臂操作,对于更精细的灵巧手交互或全身移动(如奔跑、跳跃)等“高级技能”尚未涉足。

虽然EWMBench已经非常先进,但一个能够全自动、完美区分“有效训练”与“无效训练”的终极程序,仍是整个行业追求的目标。