Jay 发自 凹非寺
量子位 | 公众号 QbitAI

最火世界模型,最火具身智能基建,联手了!

前者,是李飞飞旗下的World Labs;后者,是一家炙手可热的仿真合成数据公司——光轮智能

具身智能生态中最受关注的两家公司双刃合璧,原因无他,正是瞄准困扰行业已久的「规模化评测」问题,发起一波攻势。

而随着这波号角的吹响,也标志着具身智能正式迈入评测驱动时代

在这个赛道上,光轮智能基于全栈自研仿真技术体系所构筑的护城河,正在显现规模效应。

此次与AI教母李飞飞旗下World Labs的合作,本身也是这一价值判断在战略层面的具象化体现,也是一次「世界模型×仿真基础设施」的历史性交汇:

World Labs解决的是「世界从哪来」,而光轮智能解决的,是「进步怎么被衡量」。

最火世界模型公司

最火世界模型公司

李飞飞何许人也?

斯坦福著名教授、ImageNet奠基者、前Google Cloud首席AI科学家……行业公认的AI教母

而World Labs,正是李飞飞的首个创业项目。

有这样一位重量级人物坐镇,World Labs自然是「出生就含着金汤匙」。

更重要的是,它从一开始就选择了一条与LLM大相径庭的AGI路线——空间智能(Spatial Intelligence)。

这是一个极具想象力的概念:

通过构建能够感知、生成、推理并与环境互动的世界模型,让AI像人类一样,在与真实世界的持续交互中,逐步形成更具泛化性、上限更高的心智模型。

这种理念,也与Yann LeCun的判断不谋而合。尽管二者在世界模型的具体实现路径上存在差异,但都坚信:只有这种方式,才能突破LLM的智能天花板。

2025年底,World Labs正式推出首款产品Marble

仅需一句话、一张图片或一段视频,便可生成高保真的3D世界。

更重要的,是其清晰的商业化潜力。

与LeCun路线不同,Marble走的是可视化世界模型方向,生成结果在视觉层面极具完成度。

打开网易新闻 查看精彩图片

Marble生成的是持久、可下载的3D环境,能够显著减少场景变形与细节不一致问题,并支持导出为高斯斑点、Mesh网格、视频等多种格式。

同时,Marble还内置了原生的AI世界编辑器Chisel,用户只需一句提示,便可对世界进行定制化修改。

打开网易新闻 查看精彩图片

对于视觉特效从业者或游戏开发者而言,「一句提示→生成3D世界→一键导出至Unity」的链路,已经是实打实的生产力工具。

也正因如此,Marble一经发布便广受好评,也让更多投资人重新审视世界模型这一路线的可行性。

在创始人、理念与产品的多重加持下,World Labs很快跻身为备受追捧的超级独角兽。

成立仅两年,World Labs已融资数亿美元,股东包括Andreessen Horowitz、英伟达、Databricks、Adobe等,几乎串起了整个顶级风投与AI生态网络。

学术评测与真实评测,已无法跟上具身智能

学术评测与真实评测,已无法跟上具身智能

当然,世界模型真正的潜力,仍然在具身智能。

而这个领域,正在遭遇一个日益尖锐的问题。

模型进步的速度,已经快到一种近乎失控的程度——

几乎每隔一两周,就会出现令人眼前一亮的demo(演示),快到连现有benchmark都来不及跟上其进化节奏。

打开网易新闻 查看精彩图片

这让全球顶尖AI Labs集体陷入困境:

模型能力已经超过所有学术基准,但却无法被准确评估。

具身智能,迫切需要一把新的尺子。

直觉上,最直接的方法是进入真实环境测试。但这种方式无法规模化。

与自动驾驶不同,机器人没有「影子模式」的天然土壤。

车辆早已融入日常生活,即便不开启自动驾驶,系统也能在后台同步做决策推演,并与人类驾驶行为对比。

机器人若想达到类似效果,必须额外搭建实验环境,装配大量物理设备,并承担高昂的维护与安全成本。

机械臂路径规划出错,可能导致减速器受损;夹爪力度控制不当,甚至可能直接损坏测试物体。

评测LLM,只需书面作答,边际成本极低;而要以同等规模评测具身智能,唯一可行的路径只有仿真。

这,也正是李飞飞投身具身智能创业的核心原因之一。

李飞飞多次强调:数据与评测,是具身智能scaling的根本约束。

她所倡导的数据金字塔,将训练数据划分为三类:真实遥操作数据、仿真合成数据、人类视频数据。

打开网易新闻 查看精彩图片

这一框架,正是出自她的学生、UT Austin教授、NVIDIA GEAR项目联合负责人Yuke Zhu之手。

在这一金字塔中,仿真合成数据被视为最具可扩展性、也最有潜力成为主干的数据形态。

问题随之而来:如何让仿真真正实现规模化?

在这一背景下,World Labs推出了Marble,希望将世界模型作为机器人的仿真训练场。

但Marble走的是可视化世界模型路线,本质上提供的是一个「世界载体」,并未内置触觉、重力等物理参数。

若要真正用于机器人训练与评测,还需要物理引擎,以及大量与真实物理对齐的仿真资产——这是一项极其庞大的长尾工程。

这,正是World Labs与光轮智能合作的关键原因。

事实上,这并非李飞飞第一次系统性地推动机器人评测。

早在Stanford时期,她便在2021年左右启动并推动了BEHAVIOR系列研究,目标非常明确:为具身智能建立ImageNet级别的长期评测工程。

BEHAVIOR从一开始,就不是为了刷榜而生,而是一个长期评测工程,旨在用可扩展、可复现的方式,系统刻画机器人在真实家庭场景中完成长程、多步骤任务的能力。

其背后,已有两代博士生投入多年研究。

2025年的BEHAVIOR Challenge,正是这一愿景的重要节点。

该挑战在NeurIPS顶会期间正式颁奖,被视为具身智能领域少有的、兼具学术与产业权威性的评测事件。

今年BEHAVIOR Challenge的颁奖环节中,光轮智能CEO谢晨受邀参与颁奖。在一个以学术权威著称的评测体系中,这一安排本身,已经传递出明确的行业信号——

评测,正在从论文问题,演进为工程与基础设施问题。

打开网易新闻 查看精彩图片

在这一体系中,参赛者需要在统一机器人本体上,于仿真家庭环境中完成烹饪、清洁等50个长程任务,平均单任务持续6.6分钟,评测维度涵盖任务完成率、时间效率、路径规划等多个层面。

这一次,李飞飞希望再次借助评测的力量,为具身智能指明方向,而光轮,正是具身智能最关键的产业级基础设施之一。

World Labs×光轮智能

World Labs×光轮智能

当前,大多数仿真系统仍在追求「数字孪生」——试图将真实世界一比一复刻进仿真系统。

这种方式效果惊艳,却极其昂贵:

高密度传感器扫描、人工重建、长周期制作,几乎等同于制作一部小型CG。

显然,这条路线无法规模化。

World Labs与光轮智能,选择了另一条路径——Digital Cousin(数字表亲)。

这一概念由斯坦福SVL提出,其核心观点是:仿真最重要的是物理与空间结构,只要结构可信,细节允许近似。

Marble正是这一思想的代表。

通过一张360°全景图像等轻量级输入,Marble便可生成可导航的3D高斯散射世界,将环境创建时间从数周压缩到数分钟。

但对于具身智能评测而言,这一步只是起点。

真正的瓶颈在于:这些世界,是否能承载真实的物理交互,并用于稳定、可复现的评测?

这正是光轮智能进入的位置。光轮并非简单为Marble「补物理引擎」,而是从一开始,就将具身智能视为一个世界—行为—评测高度耦合的系统。

在这次合作中,双方的分工非常清晰:Marble解决的是环境生成的规模问题,而光轮承担的是仿真中最难、最重、也是最不可替代的部分——与真实物理对齐的资产,以及评测闭环

其底层,是一套三位一体的仿真技术体系:

  • 求解:自研GPU物理求解器,支持百万级自由度并行计算,稳定输出轨迹、接触力等可用于学习与验证的物理信号。
  • 测量:构建全自动虚实对标物理测量工厂,通过高精度设备采集材料、摩擦、接触等真实物理参数。
  • 生成:将真实世界的物理特性规模化映射为可执行、可评测的SimReady资产与场景。

在这一体系下,仿真不再是一次性的数据生成工具,而是一个可重复运行、可持续扩展的数据生产系统

世界、行为、评测,在这里形成闭环。

规模化评测,第一次真正成为可能。

最火具身智能基建公司

最火具身智能基建公司

这么多做仿真合成数据的公司,李飞飞为何偏偏选中了光轮智能?

上面的成绩单,就是最直接的回应。

但如果要更深挖一点的话……光轮智能是当前最炙手可热的具身智能基建公司。

亲自为其戴上这一桂冠的,是英伟达。

光轮是英伟达亲密的AI生态伙伴,深度参与了英伟达仿真系统的底层共建,是Newton物理引擎的早期验证者和开发合作者。

去年10月,黄仁勋女儿、英伟达Omniverse与物理AI高级总监Madison Huang首次公开亮相,同样是与光轮智能对谈。

打开网易新闻 查看精彩图片

其发言更是直接佐证了光轮智能的「强悍」之处:

  • 英伟达内部有很多项目需要光轮智能的支持。

有需求的不止英伟达。

量子位曾扒过光轮智能公开的客户名单,发现其市占率相当恐怖,几乎覆盖了AI生态中所有仿真合成数据需求的公司,包括但不限于:

  • 大模型公司:英伟达,谷歌,Genesis AI,阿里,字节…
  • 机器人本体公司:Figure AI,1X Technology,智元机器人,银河通用…
  • 行业公司:Toyota,BOSCH,比亚迪,吉利…

据几位接近数据行业的资深人士透露,光轮已经服务了全球前三的世界模型公司。国际主要具身团队的仿真资产和合成数据,80%以上来自光轮。

这些数字足够亮眼,但还有一个很容易被忽略的事实:光轮智能是除客户之外,最早能洞察机器人能力短板的生态角色。

身处客户需求一线,光轮每天都会从不同模型团队获得大量反馈。这些零散的信息一旦汇聚起来,便形成了一本干货满满的机器人「病历」。

这和咨询行业是一个逻辑,看的案例多了,自然就知道机器人容易在哪些任务上翻车。

重点在于,光轮本身又是「医生」。它能围绕这些「疑难杂症」,反向优化仿真与合成数据,提供更有针对性的「治疗方案」。

这就形成了一个闭环,推着具身智能像雪球一样滚起来。

归根结底,作为具身智能的行业基建公司,天生适合担任评测员。

事实也的确如此。

去年年底,光轮推出了RoboFinals评测标准。这是业内首个工业级、可规模化、真实可信的仿真评测平台,专为尖端机器人基础模型评测而生。

阿里通义千问团队积极采用RoboFinals,通过持续的压力测试和数据反馈,助力RoboFinals成长为行业通用标准。

同时,光轮也和英伟达联合打造了Isaac Lab Arena,这是英伟达新一代的开源仿真评测框架。

具身智能进入评测驱动时代

具身智能进入评测驱动时代

具身智能的发展,迎来拐点。

随着越来越多玩家的涌入,行业迎来全面爆发,每天都有无数令人兴奋的进展。

但这也意味着路线高度分叉,认知日新月异。

大家都在埋头拉车,但没人知道前方是什么,这条路究竟能走多远。

具身智能,当下亟需新「路标」。

评测的意义,当然不仅限于各家模型轮流刷榜秀肌肉。好的评测,能够提前发现当前技术路线的瓶颈,甚至反过来塑造研究方向。

这是具身智能发展中不可或缺的系统级能力,必须与模型同步扩展。

当评测本身成为基础设施,光轮智能的角色也随之发生变化。

不同于模型公司或机器人本体厂商,作为仿真与评测基础设施,光轮处在所有技术路线之上,而不是其中之一

这也是它最适合、也最有资格承担评测角色的原因。

在此背景下,World Labs和光轮智能,具身智能最炙手可热的这两块基建,将其串联到了一块。

此次重磅合作,或许也标志着一颗「北极星」的冉冉升起——具身智能,正式迈入评测驱动时代

[1]https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
[2]https://developer.nvidia.com/blog/simplify-generalist-robot-policy-evaluation-in-simulation-with-nvidia-isaac-lab-arena/
[3]https://www.ft.com/content/d8fec7b5-f64a-4c5b-8439-6b8fe557be95
[4]https://mp.weixin.qq.com/s/fF4ePkwm_f9j6xE0B1vRlQ
[5]https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence