李飞飞的World Labs联手光轮智能，具身智能进入评测驱动时代！|labs|world|光轮智能|大模型|机器人|李飞飞|评测

Jay 发自凹非寺
量子位 | 公众号 QbitAI

最火世界模型，最火具身智能基建，联手了！

前者，是李飞飞旗下的World Labs；后者，是一家炙手可热的仿真合成数据公司——光轮智能

具身智能生态中最受关注的两家公司双刃合璧，原因无他，正是瞄准困扰行业已久的「规模化评测」问题，发起一波攻势。

而随着这波号角的吹响，也标志着具身智能正式迈入评测驱动时代

在这个赛道上，光轮智能基于全栈自研仿真技术体系所构筑的护城河，正在显现规模效应。

此次与AI教母李飞飞旗下World Labs的合作，本身也是这一价值判断在战略层面的具象化体现，也是一次「世界模型×仿真基础设施」的历史性交汇：

World Labs解决的是「世界从哪来」，而光轮智能解决的，是「进步怎么被衡量」。

最火世界模型公司

李飞飞何许人也？

斯坦福著名教授、ImageNet奠基者、前Google Cloud首席AI科学家……行业公认的AI教母

而World Labs，正是李飞飞的首个创业项目。

有这样一位重量级人物坐镇，World Labs自然是「出生就含着金汤匙」。

更重要的是，它从一开始就选择了一条与LLM大相径庭的AGI路线——空间智能（Spatial Intelligence）。

这是一个极具想象力的概念：

通过构建能够感知、生成、推理并与环境互动的世界模型，让AI像人类一样，在与真实世界的持续交互中，逐步形成更具泛化性、上限更高的心智模型。

这种理念，也与Yann LeCun的判断不谋而合。尽管二者在世界模型的具体实现路径上存在差异，但都坚信：只有这种方式，才能突破LLM的智能天花板。

2025年底，World Labs正式推出首款产品Marble

仅需一句话、一张图片或一段视频，便可生成高保真的3D世界。

更重要的，是其清晰的商业化潜力。

与LeCun路线不同，Marble走的是可视化世界模型方向，生成结果在视觉层面极具完成度。

Marble生成的是持久、可下载的3D环境，能够显著减少场景变形与细节不一致问题，并支持导出为高斯斑点、Mesh网格、视频等多种格式。

同时，Marble还内置了原生的AI世界编辑器Chisel，用户只需一句提示，便可对世界进行定制化修改。

对于视觉特效从业者或游戏开发者而言，「一句提示→生成3D世界→一键导出至Unity」的链路，已经是实打实的生产力工具。

也正因如此，Marble一经发布便广受好评，也让更多投资人重新审视世界模型这一路线的可行性。

在创始人、理念与产品的多重加持下，World Labs很快跻身为备受追捧的超级独角兽。

成立仅两年，World Labs已融资数亿美元，股东包括Andreessen Horowitz、英伟达、Databricks、Adobe等，几乎串起了整个顶级风投与AI生态网络。

学术评测与真实评测，已无法跟上具身智能

当然，世界模型真正的潜力，仍然在具身智能。

而这个领域，正在遭遇一个日益尖锐的问题。

模型进步的速度，已经快到一种近乎失控的程度——

几乎每隔一两周，就会出现令人眼前一亮的demo（演示），快到连现有benchmark都来不及跟上其进化节奏。

这让全球顶尖AI Labs集体陷入困境：

模型能力已经超过所有学术基准，但却无法被准确评估。

具身智能，迫切需要一把新的尺子。

直觉上，最直接的方法是进入真实环境测试。但这种方式无法规模化。

与自动驾驶不同，机器人没有「影子模式」的天然土壤。

车辆早已融入日常生活，即便不开启自动驾驶，系统也能在后台同步做决策推演，并与人类驾驶行为对比。

但机器人若想达到类似效果，必须额外搭建实验环境，装配大量物理设备，并承担高昂的维护与安全成本。

机械臂路径规划出错，可能导致减速器受损；夹爪力度控制不当，甚至可能直接损坏测试物体。

评测LLM，只需书面作答，边际成本极低；而要以同等规模评测具身智能，唯一可行的路径只有仿真。

这，也正是李飞飞投身具身智能创业的核心原因之一。

李飞飞多次强调：数据与评测，是具身智能scaling的根本约束。

她所倡导的数据金字塔，将训练数据划分为三类：真实遥操作数据、仿真合成数据、人类视频数据。

这一框架，正是出自她的学生、UT Austin教授、NVIDIA GEAR项目联合负责人Yuke Zhu之手。

在这一金字塔中，仿真合成数据被视为最具可扩展性、也最有潜力成为主干的数据形态。

问题随之而来：如何让仿真真正实现规模化？

在这一背景下，World Labs推出了Marble，希望将世界模型作为机器人的仿真训练场。

但Marble走的是可视化世界模型路线，本质上提供的是一个「世界载体」，并未内置触觉、重力等物理参数。

若要真正用于机器人训练与评测，还需要物理引擎，以及大量与真实物理对齐的仿真资产——这是一项极其庞大的长尾工程。

这，正是World Labs与光轮智能合作的关键原因。

事实上，这并非李飞飞第一次系统性地推动机器人评测。

早在Stanford时期，她便在2021年左右启动并推动了BEHAVIOR系列研究，目标非常明确：为具身智能建立ImageNet级别的长期评测工程。

BEHAVIOR从一开始，就不是为了刷榜而生，而是一个长期评测工程，旨在用可扩展、可复现的方式，系统刻画机器人在真实家庭场景中完成长程、多步骤任务的能力。

其背后，已有两代博士生投入多年研究。

2025年的BEHAVIOR Challenge，正是这一愿景的重要节点。

该挑战在NeurIPS顶会期间正式颁奖，被视为具身智能领域少有的、兼具学术与产业权威性的评测事件。

今年BEHAVIOR Challenge的颁奖环节中，光轮智能CEO谢晨受邀参与颁奖。在一个以学术权威著称的评测体系中，这一安排本身，已经传递出明确的行业信号——

评测，正在从论文问题，演进为工程与基础设施问题。

在这一体系中，参赛者需要在统一机器人本体上，于仿真家庭环境中完成烹饪、清洁等50个长程任务，平均单任务持续6.6分钟，评测维度涵盖任务完成率、时间效率、路径规划等多个层面。

这一次，李飞飞希望再次借助评测的力量，为具身智能指明方向，而光轮，正是具身智能最关键的产业级基础设施之一。

World Labs×光轮智能

当前，大多数仿真系统仍在追求「数字孪生」——试图将真实世界一比一复刻进仿真系统。

这种方式效果惊艳，却极其昂贵：

高密度传感器扫描、人工重建、长周期制作，几乎等同于制作一部小型CG。

显然，这条路线无法规模化。

World Labs与光轮智能，选择了另一条路径——Digital Cousin（数字表亲）。

这一概念由斯坦福SVL提出，其核心观点是：仿真最重要的是物理与空间结构，只要结构可信，细节允许近似。

Marble正是这一思想的代表。

通过一张360°全景图像等轻量级输入，Marble便可生成可导航的3D高斯散射世界，将环境创建时间从数周压缩到数分钟。

但对于具身智能评测而言，这一步只是起点。

真正的瓶颈在于：这些世界，是否能承载真实的物理交互，并用于稳定、可复现的评测？

这正是光轮智能进入的位置。光轮并非简单为Marble「补物理引擎」，而是从一开始，就将具身智能视为一个世界—行为—评测高度耦合的系统。

在这次合作中，双方的分工非常清晰：Marble解决的是环境生成的规模问题，而光轮承担的是仿真中最难、最重、也是最不可替代的部分——与真实物理对齐的资产，以及评测闭环

其底层，是一套三位一体的仿真技术体系：

求解：自研GPU物理求解器，支持百万级自由度并行计算，稳定输出轨迹、接触力等可用于学习与验证的物理信号。
测量：构建全自动虚实对标物理测量工厂，通过高精度设备采集材料、摩擦、接触等真实物理参数。
生成：将真实世界的物理特性规模化映射为可执行、可评测的SimReady资产与场景。

在这一体系下，仿真不再是一次性的数据生成工具，而是一个可重复运行、可持续扩展的数据生产系统

世界、行为、评测，在这里形成闭环。

规模化评测，第一次真正成为可能。

最火具身智能基建公司

这么多做仿真合成数据的公司，李飞飞为何偏偏选中了光轮智能？

上面的成绩单，就是最直接的回应。

但如果要更深挖一点的话……光轮智能是当前最炙手可热的具身智能基建公司。

亲自为其戴上这一桂冠的，是英伟达。

光轮是英伟达亲密的AI生态伙伴，深度参与了英伟达仿真系统的底层共建，是Newton物理引擎的早期验证者和开发合作者。

去年10月，黄仁勋女儿、英伟达Omniverse与物理AI高级总监Madison Huang首次公开亮相，同样是与光轮智能对谈。

其发言更是直接佐证了光轮智能的「强悍」之处：

英伟达内部有很多项目需要光轮智能的支持。

有需求的不止英伟达。

量子位曾扒过光轮智能公开的客户名单，发现其市占率相当恐怖，几乎覆盖了AI生态中所有仿真合成数据需求的公司，包括但不限于：

大模型公司：英伟达，谷歌，Genesis AI，阿里，字节…
机器人本体公司：Figure AI，1X Technology，智元机器人，银河通用…
行业公司：Toyota，BOSCH，比亚迪，吉利…

据几位接近数据行业的资深人士透露，光轮已经服务了全球前三的世界模型公司。国际主要具身团队的仿真资产和合成数据，80%以上来自光轮。

这些数字足够亮眼，但还有一个很容易被忽略的事实：光轮智能是除客户之外，最早能洞察机器人能力短板的生态角色。

身处客户需求一线，光轮每天都会从不同模型团队获得大量反馈。这些零散的信息一旦汇聚起来，便形成了一本干货满满的机器人「病历」。

这和咨询行业是一个逻辑，看的案例多了，自然就知道机器人容易在哪些任务上翻车。

重点在于，光轮本身又是「医生」。它能围绕这些「疑难杂症」，反向优化仿真与合成数据，提供更有针对性的「治疗方案」。

这就形成了一个闭环，推着具身智能像雪球一样滚起来。

归根结底，作为具身智能的行业基建公司，天生适合担任评测员。

事实也的确如此。

去年年底，光轮推出了RoboFinals评测标准。这是业内首个工业级、可规模化、真实可信的仿真评测平台，专为尖端机器人基础模型评测而生。

阿里通义千问团队积极采用RoboFinals，通过持续的压力测试和数据反馈，助力RoboFinals成长为行业通用标准。

同时，光轮也和英伟达联合打造了Isaac Lab Arena，这是英伟达新一代的开源仿真评测框架。

具身智能进入评测驱动时代

具身智能的发展，迎来拐点。

随着越来越多玩家的涌入，行业迎来全面爆发，每天都有无数令人兴奋的进展。

但这也意味着路线高度分叉，认知日新月异。

大家都在埋头拉车，但没人知道前方是什么，这条路究竟能走多远。

具身智能，当下亟需新「路标」。

评测的意义，当然不仅限于各家模型轮流刷榜秀肌肉。好的评测，能够提前发现当前技术路线的瓶颈，甚至反过来塑造研究方向。

这是具身智能发展中不可或缺的系统级能力，必须与模型同步扩展。

当评测本身成为基础设施，光轮智能的角色也随之发生变化。

不同于模型公司或机器人本体厂商，作为仿真与评测基础设施，光轮处在所有技术路线之上，而不是其中之一

这也是它最适合、也最有资格承担评测角色的原因。

在此背景下，World Labs和光轮智能，具身智能最炙手可热的这两块基建，将其串联到了一块。

此次重磅合作，或许也标志着一颗「北极星」的冉冉升起——具身智能，正式迈入评测驱动时代

[1]https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
[2]https://developer.nvidia.com/blog/simplify-generalist-robot-policy-evaluation-in-simulation-with-nvidia-isaac-lab-arena/
[3]https://www.ft.com/content/d8fec7b5-f64a-4c5b-8439-6b8fe557be95
[4]https://mp.weixin.qq.com/s/fF4ePkwm_f9j6xE0B1vRlQ
[5]https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence