李飞飞最新长文拆解：不是什么都叫"世界模型"；它，才是破局关键！|智能体|机器人|李飞飞|模拟器

出品 | 网易智能

作者 | 辰辰

“世界模型”是当前AI领域最重要、最热、也是最被滥用的概念。“世界模型”也被认为是通往AGI的最大可能的终极路线。

当前世界模型（World Model）主流技术路线尚未收敛，大概分为4条主流路线。一是生成式视频路线，以OpenAI、视频生成公司为代表；二是交互式世界（动作条件）路线，以Google DeepMind Genie等为代表；三是空间智能（3D结构）路线，以李飞飞（World Labs）为代表；四是联合嵌入预测（JEPA）路线，为Yann LeCun（杨立昆）等提出。此外，英伟达（Cosmos/Omniverse）提倡走仿真基础设施路线。国内的大厂、视频生成公司、具身智能、3D生成公司等领域的创业公司，也纷纷提出了自己“世界模型”的路线。

在一片喧嚣当中，世界模式路线代表人物之一李飞飞和World Labs 6月4日再度发出长文《世界模型的功能分类：渲染器、模拟器、规划器，以及连接它们的循环》，把“世界模型”这个概念重新拆开：一个视频模型、一个游戏引擎、一个机器人demo，三个方向顶着同一个名字。李飞飞认为，它们本质上是“渲染、模拟和规划”三件完全不同的事，而其中最不起眼的模拟器，才是物理AI的地基。

这套分类不是凭空发明的，底下压着一个经典框架：智能体做出动作，改变世界状态，再通过观察感知变化，然后继续做动作。所有"世界模型"，不过是这个循环的不同投影。李飞飞团队把它拆成了三类。

·渲染器输出像素，给人看，追求视觉逼真。它是商业化最成熟的方向，谷歌的相关模型已经装进数亿用户手机。但天花板也很清楚：它优化的是"看起来对"，不是"实际上对"。 AI航拍从天上看无可挑剔，一旦试图开进城市，楼就塌了。

·规划器输出下一步该做什么。机器人demo看起来很唬人，但李飞飞说得很直接："几乎所有演示都局限于严格受控的实验室环境。没有一个在真实部署的复杂度上被验证过。"从demo到真正干活，中间还隔着巨大鸿沟。但钱已经砸下去了。因为能规划的机器人，才是能干活的机器人。

·模拟器输出的是几何数据、物理参数和碰撞网格。没有任何好看的东西。但如果把这件事比作盖楼，渲染器是外立面，规划器是动线，模拟器才是地基和承重墙。语言是对世界的抽象，像素是对世界的投影，而几何、物理和动力学，才更接近世界本身。

李飞飞用"杯子放在桌上"讲透了三者的关系：一个模型如果真正理解杯子的几何、材质和受力，就应该能从任何角度渲染它，模拟它被推倒后会发生什么，也能规划一只手把它拿起来。三种能力共享同一套底层理解。

反过来却不成立。只会渲染，或者只会规划，都不一定做得到另外两件事。因为模拟器操作的那一层，几何、物理和动力学，恰好就是三者共享的底层本身。这就是模拟器被称为"关键枢纽"的原因：掌握了模拟，既可以投射成像素给人看，也可以投射成动作给机器人用。

当然，李飞飞自己的World Labs做的就是模拟器，她不是旁观者。但这套论证不只靠立场，也靠逻辑。

这条路的商业想象空间最大，问题也最大。三维数据比互联网视频稀缺好几个数量级，仿真到现实的鸿沟依然在，多物理场模拟的计算成本同样高出数量级。模拟器是最重要的一环，也是最难啃的一环。

但更重要的变化在后面：三条线正在合并。渲染器开始接受动作输入，模拟器越来越可控，规划器也从"反应"走向"深思熟虑"。三条分别撑起数十亿乃至数万亿美元想象空间的技术路线，正在从独立项目走向同一件事。逻辑终点，是一个统一世界模型，能在三种输出模式之间切换。

这指向一次更深层的范式翻转。过去十年，AI的核心是预测下一个token。但语言的边界，不是世界的边界。 空间智能学的是光怎么落在表面，物体怎么遵守物理定律。这是完全不同的底层逻辑。如果这个方向成立，AI的下一跳不是继续堆更大的语言模型，而是让机器真正"住进"物理世界。

像素可以说谎，物理不能。AI照片能骗过众多网友，但机器人走进厨房，地板上一道两毫米的高差就能让它露馅。

李飞飞和她的团队，在行业最热的时候，画了一张冷静的路线图：渲染、模拟、规划。三个词拆开，该做什么，缺什么，什么最难，一目了然。

在一片"世界模型"的口号声中，先把这三个词分清楚，再来谈改变世界。

李飞飞原文在X等社交媒体和博客发布后，反响强烈：

投资人贾斯汀·摩尔（Justine Moore）转发时写道："'世界模型'大概是眼下AI领域最被滥用的一个词。如果你搞不清世界模型到底干什么（很多人都搞不清！），强烈推荐李飞飞这篇，她把世界模型拆成了三种功能，还预测了走向。"

AI行业资深专家扬·克龙贝格（Yann Kronberg）评论："我觉得这篇文章真正有用的一点是，它把'看起来正确'和'真正可用'区分开了。一个模型可以渲染出漂亮的房间，但仍然不知道椅子是否挡住了门、某个物体能不能移动，或者有外力介入时场景会怎样。"

硅谷科技高管安舒尔·达万（Anshul Dhawan）说了一句很精准的话：这三个不是三种产品，是三种功能。 这个区分之所以重要，是因为今天大多数顶着"世界模型"名号的东西，其实只把其中一种功能做好了。一个能渲染视频的模型不等于理解世界，正如一个能在实验室抓杯子的机器人不等于能在真实世界干活。

临床AI产品负责人鲁特维克·沙阿（Rutwik Shah）指出了行业注意力的偏差："这篇文章太及时了！模拟器是物理AI和机器人技术的先决条件。目前很多讨论都集中在外形上，人形还是其他形状，以及争抢日常任务中的第一人称数据。然而重建环境、构建空间感知以便在真实世界中导航和操作，其重要性可能远不止于此。"

有从业者据此提出自己的看法：谷歌、OpenAI、所有人在内的这场智能体竞赛，只有在模拟技术成熟之后才能真正规模化。在那之前，一切都停在"精彩Demo"阶段。 他写道："李飞飞在最新文章中再次一针见血，仿真才是真正的关键。渲染器能生成漂亮像素，规划器能给出流畅动作。但如果没有一个真正以物理为先的模拟器作为基础，一切都只能停在'令人印象深刻的演示'这个层面。这意味着什么？整个智能体竞赛只有等到仿真技术成熟才能真正规模化。到那时，统一的世界模型才能把空间智能从空谈变成真正能工作的机器人、真正能预测物理过程的数字孪生，以及终于理解因果关系的智能体。对机器人领域的开发者和设计师来说，这是颠覆性的改变：可靠的sim-to-real迁移终于成为现实，把长达数月的危险真实环境测试变成快速、安全、可大规模扩展的训练场。这篇分类学文章一下子就把路线图讲清楚了。"

还有读者留下了更宏观的判断："通往AGI的路，可能不是继续堆更大的模型，而是让机器真正'住进'这个世界。"

附：李飞飞原文全文翻译

原标题：A Functional Taxonomy of World Models — Renderers, Simulators, Planners, and the Loop That Connects Them

中文译名：《世界模型的功能分类：渲染器、模拟器、规划器，以及连接它们的循环》

作者：李飞飞（Fei-Fei Li）及World Labs团队

世界不是由词语构成的。
在更早的一篇文章中，我们提出空间智能是AI的下一个前沿，世界模型是通往它的路径。这篇文章里，我和World Labs团队想再往下走一层：在当下众多被称为"世界模型"的东西中，到底哪些功能模块真正组成了这项能力，每一块又是干什么的？
语言模型赋予了机器对概念、词汇和推理的非凡掌控力，但物理世界运行在完全不同的基底层上。语言模型学的是文本的统计结构，世界模型学的是空间与时间的统计结构：光如何落在物体表面，一个花园从某个没被相机拍过的角度看起来是什么样，物体怎么受力、怎么遵循物理定律。
正因如此，"世界模型"成了今天AI领域最重要、也最被滥用的术语。计算机视觉、机器人学、强化学习和生成式AI各自宣称在构建世界模型，但每一家指的完全是不同的东西。一个能生成画面华丽但物理上不可能存在的火焰的视频模型，一个即兴生成可玩游戏的语言模型，一个忠实模拟燃烧过程的物理引擎，它们顶着同一个名字。
古希腊人从未就世界由什么构成达成一致，火、水，还是不可分割的原子，因为"世界"从来不是一个单一概念。它始终是一个占位符，代表某个思想家需要推理的那个"整体"。AI继承了同样的困境，而且恰好在这个领域最需要精确性的时刻。
分类法底层的那个循环
拨开这团迷雾，要从一张比所有相关技术都更古老的图说起。包括萨顿和巴托（Sutton and Barto）经典教材在内，强化学习教科书几十年来一直在用同一个图的某个版本描述智能体如何与世界交互。学术上的正式名称叫"部分可观测马尔可夫决策过程"（POMDP），而"世界模型"一词最早的学术定义就出自这个传统。
一个智能体，可以是人、机器人或软件系统，执行动作。动作影响世界的状态。智能体永远无法直接看到状态本身。到达智能体的是观察：落在视网膜上的光子、传感器读数、视频帧里的像素。新的观察催生新的动作，循环往复。
"状态"这个词要拆开说，因为不同领域含义不同。这里不是化学家说的状态，不是固液气的区别。这是物理学家和机器人学家说的状态：对某一时刻世界正在发生什么的完整描述，包括每一个物体、每一个位置、每一个速度、每一个属性。状态是世界的底层现实，原则上可以完整定义，但身处其中的智能体无法直接看见它。 观察是智能体对那一现实的部分视角。动作是智能体据此做出的回应。
这个循环，智能体到动作到状态到观察再回到智能体，就是赋予"世界模型"这个现代术语以技术含义的结构。词本身的历史更早，可以追溯到肯尼斯·克雷克（Kenneth Craik）1943年提出的假说：心智通过运行现实的"小规模模型"来推理，后来在1980年代末和1990年代初被引入神经网络。这个循环也解释了今天人们使用这个术语时到底在指什么。当下被称为世界模型的各种事物，本质上就是这个循环的不同投影。每一种输出的，只是循环中的不同一块。
世界模型的三种功能
第一种是渲染器。 渲染器输出一帧帧给人眼看的像素，最重要的质量标准是视觉保真度。一个把文字提示转化为电影级航拍镜头的视频模型，就是渲染器。交互式系统也算，比如谷歌的Genie 3，或者World Labs自己的RTFM，模型根据用户输入实时生成画面。这类模型对三维结构没有显式理解。它生成的是观看者会看到的东西，而不是事物本身。航拍视角下的建筑从空中看可能无可挑剔，但一旦你试图驶入下面的城市，它们就崩塌了。
第二种是模拟器。 模拟器输出的是状态：一个在几何、物理和动力学层面都忠实的世界表征，人和程序都可以在上面计算和交互。渲染器的契约是视觉层面的，模拟器的契约是结构层面的，它要求几何经得起审视，物理遵循牛顿定律，动力学按物理定律运行。模拟器同时服务两类消费者。建筑师、设计师、电影人和游戏开发者这些人类专业人士，需要超越视觉可信度的准确性。强化学习智能体、机器人控制器和自动驾驶汽车这些程序，则把模拟器当训练场，在里面与世界大规模交互，测试那些在现实中危险、昂贵或不可能跑的场景。
第三种是规划器。 规划器输出的是动作。给定观察和目标，规划器回答的问题是：下一步该做什么。在很多方面，这是渲染器的逆操作。渲染器接收动作作为输入、产生观察；规划器接收观察作为输入、产生动作，闭合了感知-行动循环。视觉-语言-动作模型、基于模型的系统，以及新一波的"世界-动作模型"，都是规划器的尝试，它们试图决定一台机器人在非结构化世界中该做什么。
这三种分类涵盖了今天大多数落地产品，区分在实践中有用。但三个类别并非根本性地彼此独立。它们共享同一套关于世界如何运作的底层知识：几何、物理、动力学。一个能从任何角度渲染一只杯子的模型，原则上也该能模拟杯子被推动时会怎样，并规划一只手去把它拿起来。越来越多的前沿研究在刻意模糊三者之间的边界。
为什么模拟器是关键枢纽
三者之中，模拟器获得的公众关注最少，却是分量最重的一环。本文要回应的，正是这种不对称。
渲染器是商业化最成熟的方向。一批图像或视频生成产品正在消费端和企业端快速扩张。谷歌的Nano Banana模型已经把渲染器级别的图像生成能力送到了数亿用户手中。技术是真的，市场也是真的。然而渲染器优化的是视觉可信度而非物理准确性，这个天花板至关重要。 输出很漂亮，但不能拿来设计一座建筑或训练一台机器人。
规划器最引人遐想，也最不成熟，和快速演进的机器人学习领域紧密相连。过去两年，这个领域产出的机器人演示在视频里看起来很唬人，但对这些演示到底展示了什么，需要诚实面对。几乎所有演示都局限于严格受控的实验室环境，物体种类有限，任务时间很短。没有一个在真实部署所需的复杂度、多变性和持续性上被验证过。 从一段精彩的演示短片到一台能在厨房、仓库或手术室里稳定工作的机器人，中间鸿沟依然巨大。尽管如此，商业押注不小。一批资金充裕的入局者正在竞相交付通用规划系统，最大的基础设施公司正在把规划能力架设在更广泛的模拟栈之上。一台能规划的机器人就是一台能干活的机器人，整个行业都在抢那个率先到终点的人。
模拟是两者之间的桥。 如果说语言是对世界的抽象，像素是对世界的投影，那么几何、物理和动力学就是世界本身。模拟器必须在这一层运作：它是结构性的主干，视觉外观（供渲染器用）和动作后果（供规划器用）都可以从中导出。
一个掌握了模拟的模型，可以把自己的理解投射为像素供人消费，也可以投射为动作预测供具身智能体使用。一个只掌握了渲染或只掌握了规划的模型，反过来做不到。商业覆盖面极广。仅英伟达Omniverse一个平台，就瞄准了公司自己估计超万亿美元的可寻址市场，涵盖工厂、仓库、供应链和数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物发现，所有这些赛道都依赖某种形态的模拟能力。
这个领域最难的开放问题也集中在这里。带有明确几何标注、材质属性和物理注释的三维数据，比渲染器训练用的互联网视频稀缺好几个数量级。"从模拟到现实"的鸿沟，也就是事物在仿真中的行为与在现实中的行为之间的差异，始终存在。生成式模拟器在此基础上引入了一层新风险：AI生成的几何结构可能看起来正确，但暗藏自相交面或错误比例尺，一旦接入物理引擎就会产出毫无意义的物理结果。多物理场模拟，刚体、柔性体、流体和布料同时交互，计算成本比单一物理域高出几个数量级。
在World Labs，Marble是我们进入这个领域的第一步。它接收多模态提示（文本、图像、视频或空间草图），生成可探索的三维环境，同时输出用于视觉探索的高斯溅射和物理引擎可操作的碰撞网格。但Marble只是一段更漫长故事的第一章，随着渲染、模拟和规划之间的边界开始消融，这个故事正在整个领域被书写。
边界正在消融，接下来会怎样
但更重要的还在后面。当下这个领域最重要的趋势是：三个类别正在相互融合。 共享的洞见在于，渲染一个世界、模拟一个世界、在一个世界中行动所需的知识，大体上是同一套。延续前面的例子，一个真正理解杯子如何放在桌上的模型，理解它的几何形状、材质属性、受力反应，应该能从任何角度渲染那个杯子，能模拟杯子被推倒时会怎样，也能规划一只手去把杯子拿起来。三个类别是同一套底层理解的三种投影。
举例来说：近期有数量不多但持续增长的研究，来自多个机器人实验室，已经证明至少在概念上，一个预训练的视频渲染器可以被用作"世界+动作"联合预测的主干网络。这暗示了渲染器和规划器之间的一座桥，让一个模型同时想象会发生什么和该做什么。World Labs的Marble已经能从同一个模型同时输出高斯溅射和碰撞网格，消解了渲染器和模拟器之间的边界。每一个层面都在从被动输出走向交互式系统：渲染器开始接受动作输入，模拟器产出的世界越来越可控可编辑，规划器从简单反应走向深思熟虑。
逻辑终点是一个统一的世界模型：一个基础模型，能渲染照片级逼真的视角，生成物理精确的结构，规划动作序列，根据下游需要在输出模式之间切换。我们面前仍有一系列令人生畏的挑战。数据图景极不均衡：渲染器浸泡在互联网视频的海洋中，模拟器和规划器面临三维资产和机器人演示数据的严重短缺。优化视觉美感可能牺牲机器人或高精度模拟所需的精确性。在一个架构内调和这些矛盾，是今天世界模型研究中最核心的开放问题，也是World Labs在持续演进Marble的过程中决心去做的事。
然而方向是清晰的。自1980年代末以来，这个领域一直在押同一个赌注：一个足够丰富的世界模型，就是任何智能体去看世界、构建世界、在世界中行动所需的全部。这个赌注如今正驱动着整整一代研究。赋予这一赌注分量的，是正在发生的融合：三条各自已经推动和塑造了数十亿美元产业的技术路线，最初以独立研究项目起步，现在开始表现得像一个整体。随着它们之间的边界消融，它们将重塑一个更大的东西：机器智能与其所栖居的物理世界之间的关系，也就是空间智能的长弧。
语言赋予了机器谈论世界的方式。世界模型，是机器终于开始理解、想象、推理这个世界，并在其中与之互动的方式。