打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

让机器人成为能主动想象、理解、行动的智能体。

作者 |许丽思

编辑 |漠影

前阵子,特斯拉释放重磅消息,Optimus 3即将亮相,它将是一款通用人形机器人,也是特斯拉第一款走向量产的机器人,将在今年年底前启动生产。同时,Optimus已经在特斯拉工厂执行一些简单任务。

机器人行业的叙事,正从会跑会跳的技术演示转向能落地干活的使用能力,距离走进人类生活似乎越来越近了。不过,在demo和规模化落地之间,还需要迈过安全、可靠性与功能成熟度等门槛。

在这道门槛前,数据问题变得更尖锐。以特斯拉Optimus的研发为例,早期团队曾采用动作捕捉服和远程操作方案,但在去年开始探索其他训练方式。

这种困境并非个例,行业普遍面临真实机器人数据昂贵、稀缺且强依赖硬件形态,进而导致训练与评估难以规模化复制、场景泛化能力有限。

此前,英伟达打造了“三台计算机”解决方案:DGX系列提供强劲算力支撑,Omniverse平台Cosmos世界基础模型平台高效生产仿真数据,AGX作为边端完成部署和验证,三者协同形成完整闭环,为物理AI开发提供全链条支持。

其中,Cosmos的角色,在于成为物理AI破解数据难题的关键工具。它能够轻松生产大量符合物理规律的逼真合成数据,解决真实世界数据稀缺、模型测试风险高等挑战,让机器人在虚拟环境中先试错、再实战。

同时,开发者还可通过微调 Cosmos WFM构建自定义模型,大幅降低物理AI开发门槛。

打开网易新闻 查看精彩图片

01.

轻松生成大量逼真合成数据,

让机器人更能适配真实场景挑战

与只需要处理单一模态数据的传统AI不同,物理AI需要支撑机器人在真实场景中完成复杂任务,比如工厂抓取零部件时的准确受力反馈、户外场景移动时的复杂地形应对与行动策略调整等,对数据的真实性、多样性、规模化需求极高。

物理AI模型的开发成本高且需要大量真实数据和测试,而Cosmos世界基础模型使开发者能够轻松生成大量符合物理规律的逼真合成数据,以用于训练和评估其现有的模型。

具体来说,Cosmos世界基础模型包括了三大部分:Cosmos Predict、Cosmos Transfer和Cosmos Reason。

Cosmos Predict让机器人拥有一种堪称提前看结局的能力,能够预测动态环境的未来状态。Cosmos Predict 2.5已将多种预测能力整合到单一模型中,实现了在单帧输入条件下快速生成30秒预测视频。

它为机器人复杂任务规划提供了强大支撑,开发者可基于此对模型进行后期训练,将视频预测能力转化为策略建模所需的动作生成能力。

比如,在机器人执行精密装配任务前,先通过Cosmos Predict模拟不同操作路径的结果,选择最优方案,从而让机器人在实战中更精准、更安全,大幅减少试错成本与操作风险。

打开网易新闻 查看精彩图片

Cosmos Transfer通过ControlNet架构,能基于输入数据生成高保真世界场景,改变光照、天气、物体材质等条件,生成同一场景的无数种可能。最新的Cosmos Transfer 2.5能够生成更高质量、逼真的数据,且大小仅为Cosmos Transfer 1的三分之一。

对机器人来说,它可以在虚拟环境中体验千变万化的现实世界。无需依赖海量真实场景数据采集,就能有效提升机器人对不同场景的泛化能力,降低适配多场景应用的开发成本,加速规模化落地进程。

打开网易新闻 查看精彩图片

Cosmos Reason则是一个完全可定制的多模态AI推理模型,专为理解运动、物体交互和时空关系而构建。它让机器人能够理解空间、时间和物理特性,还能给Cosmos Predict生成多样化、逼真的提示,并使用基于文本的控件从视频中筛选高质量的合成数据。

当机器人拥有了像人类一样推理的能力,它就不再只是执行预设指令的工具,而是能理解物理世界规律、进行有意识决策的智能体,提升了在复杂未知场景中的自主应对能力,打破规模化落地的场景适配局限。

除了这些基础模型,Cosmos还包括由NVIDIA Cosmos Curate提供支持的数据处理和管理工作流,使开发者能够在NVIDIA HopperGPU上仅用40天处理2000万小时的数据,在NVIDIA BlackwellGPU上只需14天就能处理2000万小时的数据。

Cosmos还配备一套视频和图像tokenizer,可以将视频转换为不同视频压缩比的标记,用于训练各种Transformer模型。与现在先进的tokenizer相比,Cosmos tokenizer的总压缩率高出8倍,处理速度快12倍,让训练成本大幅降低。

02.

基于Cosmos开发的WOW:

让机器人看懂、理解并行动于世界

去年,北京人形机器人创新中心(以下简称“北京人形”)发布具身世界模型WoW,备受学术界、产业界关注。

不仅Huggingface官方留言“Excellent work”催更开源,斯坦福具身智能大佬、PI创始人Chelsea Finn还在与清华合作文章中引用了WoW技术报告。

值得一提的是,WoW正是北京人形研发团队以Cosmos为基座,结合自身在机器人交互数据、算法优化等方面的积累打造而成,可以说是Cosmos在具身智能领域的最佳实践之一,充分验证了Cosmos平台的灵活性与扩展性。

WOW是一个能让机器人真正看见、理解并行动于世界的世界模型,提出了一个全新的框架,将世界生成、动作预测、视觉理解和自我反思融合为一个统一系统,使得AI不再只是看视频或生成图像,而能通过交互学习世界的物理规律,并在真实环境中自主操作。

模型怎么样才能够像人类一样,通过实践不断进步,越来越聪明?WoW给出了答案:其提出的SOPHIA框架,把大语言模型与扩散Transformer结合起来,在语言引导下生成物理上合理的未来,让AI形成"生成预测-批评-修正"的闭环,使得模型在执行任务时能不断优化。

打开网易新闻 查看精彩图片

▲SOPHIA框架让AI生成结果后自我评估、给出反馈,并通过Refiner Agent改进提示词或推理链

WOW中还有一个基于Diffusion Transformer架构的世界生成引擎,它能够根据环境状态与智能体当前观测,预测未来场景、推演物理演化、还原动态因果链。

光有视觉“想象”还不够,WoW还能实现视频生成和机器人动作执行的闭环。只要给定连续两帧预测视频,FM-IDM逆动力学模型就能够计算出机器人末端执行器的动作变化量,将想象的视频预测转化为可执行动作,让AI的想象真正落地。

打开网易新闻 查看精彩图片

▲FM-IDM让模型实现从视频到行动的闭环

在泛化能力上,WoW表现突出:无需微调,即可在UR5、Franka、AgileX等不同机器人平台上执行任务,甚至能操作从未见过的物体,比如定制文化衫、气球等柔性物体等,展现出强大的物理规律抽象能力。

打开网易新闻 查看精彩图片

总而言之,基于Cosmos,Wow实现了“想象世界-理解物理-生成视频-执行动作-再学习”的完整闭环,推动AI拥有直觉物理的能力,加快通用机器人的规模化落地与泛化。

03.

结语:拥有对物理世界的想象力,

AI加快成为真正的具身智能体

Cosmos及开发者基于其构建的模型,让机器人不再只是物理世界的被动观察者,而是成为能主动想象、理解、行动的智能体,让人看到了AI真正成为具身智能体的未来。

随着机器人能像人类一样通过互动学习物理规律,而不是依赖海量数据“死记硬背”,具身智能的终极目标,让AI真正理解世界、在现实世界中行动就不再是遥不可及的未来。