世界模型究竟是什么？|世界模型|机器人|柏拉图|真实世界|神经网络

注：这是一篇旧文重发。

今年 3 月，科技博客 Not Boring 的作者 Packy McCormick 与 General Intuition CEO Pim De Witte 联合发表了一篇近两万字的英文长文“World Models: Computing the Uncomputable”，系统梳理了世界模型的概念、历史、技术路线与竞争格局。我们当时做了全文编译，三个多月过去，这篇文章不但没有过时，反而越发变成了理解当下局势的必读文章之一。

过去几个月里，世界模型正在成为 AI 行业出现频率最高的关键词之一。无论是大模型公司、自动驾驶公司、机器人公司还是游戏公司，都开始在自己的叙事里加入“世界模型”。

AMI Labs、World Labs、Wayve、Physical Intelligence 等公司在上半年合计吸引了超过 40 亿美元融资；就在上周，这篇博文的联合作者 Pim De Witte 的 General Intuition 宣布完成 3.2 亿美元 A 轮融资，估值 23 亿美元，距离他们 1.337 亿美元的种子轮仅过了三个月。几乎每一笔钱都押注在同一个判断上：未来的具身智能，要从世界模型中长出来。

但热钱涌入的同时，路线之争也愈发激烈。潜在方法还是生成式方法？VLA 工程迭代能跑赢理论上更优的架构吗？游戏数据和机器人数据哪个才是通往现实世界的最佳桥梁？推断动作和 ground truth 动作之间的差距能被弥合吗？这些问题在三个月前是开放的，今天依然是开放的，但已经有越来越多的实验数据开始缩小可能性空间。

这正是我们决定重发这篇文章的原因。在世界模型这个领域，概念很多，噪声也很多，但像这样把历史脉络、技术细节和商业格局在一篇文章里讲清楚的，目前仍然不多。对于想要系统理解世界模型是什么、为什么重要、以及各路玩家在赌什么的读者来说，这仍然是最好的起点。

需要再次提前说明的是，Pim De Witte 和他的团队对世界模型有自己的技术判断和商业立场，读者可以自行判断哪些是客观描述，哪些是立场表达。

“我昨晚本想睡觉，结果大脑开始胡思乱想，幻想第二天可能会遇到的各种场景，以及我又会如何应对。”

这是一种很常见的体验。作为人类，我们可以很轻松地想象各种事情：一座复杂的体育场、一段可能发生的浪漫关系，或者一场激烈的争论。想象自己出现在下一场曼联比赛现场，并不比想象自己和一位多年老友聊天更费力。可如果要模拟一场曼联比赛，就意味着要模拟、建模成千上万人的行为；以今天的传统计算机和游戏引擎，这可能要花上数年时间。

想象一下，如果要写代码描述一场曼联比赛，会是什么样子：某个瞬间，一位球迷可能举起一面随机出现的自制旗帜。整座球场随即开始唱起与它有关的歌。但并不是所有人都会唱。有人抱着孩子跳起来，有一对老夫妇却安静地坐着，心里想着这会不会是他们最后一次一起看球，沉默地感受着每一秒。

世界就是这样一个地方：未来总是出人意料，却又会以某种可预测的方式展开。对人类来说，想象这些场景所需的努力和时间大体相近，但计算机却做不到这一点。

传统计算在这种复杂性面前无能为力，这并不奇怪。试想一下，要预测并编写每一个动作的代码，以及所有这些动作之间的交互需要多大的工程量。从数学上说，在传统引擎里模拟 N 个球迷，至少是一个 O(N) 或 O(N²) 的问题。每个人、每面旗帜、每把椅子、每个球都必须被显式计算；更准确地说，它们之间的相互作用也都要被计算。

在机器人领域，机器必须在相同的时间内对现实世界的各种情况做出反应，无论这些情况有多复杂。但在传统计算中，不同情况需要的模拟时间可能天差地别。这一直是机器人和具身 AI（embodied AI）进步的主要瓶颈。

世界模型就是这个问题的一种解法。

世界模型从视频中学习预测这些动态，通常还会学习视频中所发生的动作。它们将那些动态的、在计算上难以大规模模拟的情况，包括像足球比赛中这种随机的、依赖动作的群体行为，压缩成神经网络里一次固定成本的运算。

在世界模型中，整个体育场作为一次固定成本的前向传播（forward pass）被模拟出来。场景的复杂度不会让“引擎”在推理时指数级地慢下来，因为世界的模式已经在训练阶段被吸收进了模型权重（weights）。

它是怎么做到的？靠动作。

动作是一种压缩形式，可以用来预测正在展开的动态。它携带了在环境中推演未来状态所需的信息，直到新的动作发生，为环境引入新的输入。每一个动作都包含足够的信息，让模型预测接下来会发生什么，直到下一个动作再次更新画面。

这种以行动为条件（action-conditioned）的方法让模型能够交互式地学习和规划。今天，即便是最好的模拟引擎也很难做到这一点，更不用说以可预测的计算成本做到。动作让模型能像我们一样与世界交互。

日复一日，我们都在重复同一个过程：观察，计算，决定做什么，然后行动，这就是生活。在任何一个时刻，你收集到的所有关于空间和时间的信息，最终都会压缩成你采取的那个动作。

对计算机来说，动作是一条绕开高昂模拟成本的捷径。如果人脑比最好的大语言模型高效得多，那么只要观察人类如何回应环境中无数变量，我们几乎就能免费获得那些计算结果。这给了我们一种高效进行非确定性计算的方法，也让我们能够创造出传统计算约束下本不该实现的模拟。

这种“计算不可计算之物”的能力，正是我们相信世界模型会以当前模型架构无法做到的方式推动具身 AI 进步的原因。

可以把模型想象成梦。

你有没有做过这样一种梦：你只是站在那里，看着事情发生，却无法介入？那就是视频模型。

真实世界不一样。它会回应你的行动，或者回应你发出的指令，并预测由此可能发生的一整组结果，而不只是生成最可能、或最有戏剧性的下一帧。

你有没有做过清醒梦（lucid dream）？在梦里，你知道自己身处大脑生成的梦境，并且能够改变故事的走向。那就是世界模型。

更规范地说，标准视频模型基于概率预测下一帧，P(x_{t+1} | x_t)，而世界模型基于干预（intervention）预测下一个状态，P(s_{t+1} | s_t, a_t)。

那个 a_t（t 时刻的动作）就是魔法所在。

在 General Intuition，我们相信，世界模型是一类新的基础模型；对于那些需要深度空间和时间推理的环境，它们可能比大语言模型更强大，我们也已经看到了一些早期迹象。这样的环境，正包括我们所处的真实世界。

世界模型从观察世界，以及观察世界中发生的动作中学习。它们是一种根本不同的新型基础模型，能够计算过去无法计算的东西。

它们的重要性将远超当前任何人的认知，因为它们提供了一条仅靠语言和代码无法达到的通往通用智能的路径。毕竟，所谓人类的一生，就是不断根据自己的经历、观察和学习去采取行动。

先停一下，你可能会对“世界模型提供了一条 LLM 无法走通的通往通用智能的路径”这个说法感到困惑，这可以理解。

最近，世界模型获得了越来越多关注。Yann LeCun 一直怀疑大语言模型是否真能通向通用智能，而他刚刚宣布为 AMI 融资 10.3 亿美元。李飞飞创办的 World Labs 也已经融资超过 10 亿美元，目标同样是世界模型。Google DeepMind 几乎拥有科技行业最接近“无限印钞机”（互联网广告）的资源，也在押注世界模型。但到目前为止，这些投入呈现给外界的，主要还是很酷的视频和 3D 世界。

大模型能引用莎士比亚，也可以解决 Erdős 问题（译注：Erdős 问题是指著名匈牙利数学家保罗·埃尔德什提出的数百个数学难题和猜想，主要集中在数论、组合数学、图论和几何等领域）。相比之下，世界模型看起来仍然更像是通往元宇宙的路径，而不是通往通用智能的路径。

不过，世界模型之所以还没有大语言模型那样的热度，部分原因在于，它们的定义仍然模糊。

什么是世界模型？前面我们已经说过，视频模型不算。3D 空间模型也不算。话虽如此，二者都可能是通往世界模型的路径。今天驱动机器人的那些模型算不算世界模型？严格说不完全算，虽然其中有些可以算；即便那些不算的，也和世界模型架构共享一些特征。

和往常一样，炒作只会让概念更混乱。AMI Labs 的 CEO Alexandre LeBrun 对 TechCrunch 说：“我预测‘世界模型’将成为下一个流行词。六个月后，每家公司都会自称世界模型公司，好去融资。”（译注：如今来看，似乎确实如此）

但炒作只是一小部分。所有在这个领域构建产品和模型的人都相信：世界模型是控制物理世界中机器的路径。路径的具体形态可能有差异，但所有人都相信未来要从世界模型中走过。

NVIDIA 机器人业务负责人、杰出科学家 Jim Fan 最近说：“……很少有人真正理解这场转变会有多深远……遗憾的是，世界模型现在最被炒作的用途，是 AI 视频垃圾内容；接下来大概还会有游戏垃圾内容。但我非常确信，2026 年会是大型世界模型为机器人，以及更广泛的多模态 AI 奠定真正基础的第一年。”

今天这篇文章试图做的，就是把这场变化讲清楚：世界模型从哪里来，今天发展到什么阶段，各大实验室分别在押注哪些技术路线，以及 General Intuition 为什么选择自己的方向。

如果说过去几年 AI 的主线是语言模型，那么世界模型代表的是另一条正在成形的路径：让机器不仅能理解文字和图像，还能理解行动、环境和后果之间的关系。沿着这条线索往下看，问题会变得越来越根本：我们如何定义“现实”？机器能否在一个足够逼真的模拟世界中学习，并把学到的能力迁移到真实世界？

甚至还可以进一步追问：如果一个 Agent 可以在世界模型中学习、行动并形成对环境的理解，我们又如何确定，自己不是某个更大模型中的一部分？

Agent 能在自己的梦中学习吗？

世界模型不算个新概念，它很古老，甚至可以说，是人类最早提出的一批问题之一。

从人类开始思考自己在宇宙中的位置、追问“我们为什么在这里”起，我们就在反复想象一种可能：我们所处的现实，会不会只是一个模拟？

公元前 380 年，柏拉图通过苏格拉底提出了“洞穴寓言”（译者注：出自《理想国》第七卷）。想象一些人类住在地下的洞穴里，脖子被锁链锁住，被迫盯着墙上的影子看。这些人会相信那些影子就是现实本身，而实际上它们只是现实的影子。柏拉图暗示，我们都困在洞穴里，脖子被锁着，把我们的感知误当成了真正的现实。

大约八十年后，中国道家哲学家庄周在“蝴蝶梦”中思考了类似的问题：从前庄周梦到自己变成了一只蝴蝶，翩翩起舞，自得其乐，不知道自己是庄周。突然醒来，分明是庄周。但他不知道，是庄周梦到自己变成了蝴蝶，还是蝴蝶梦到自己变成了庄周。（译者注：出自《庄子·齐物论》，原文：“昔者庄周梦为胡蝶，栩栩然胡蝶也，自喻适志与，不知周也。俄然觉，则蘧蘧然周也。不知周之梦为胡蝶与，胡蝶之梦为周与？周与胡蝶，则必有分矣。此之谓物化。”）

几个世纪过去，随着技术能力的进化，科幻作家也加入了这条追问现实本质的思想脉络。Frederik Pohl 在 1955 年写了《世界地下的隧道》，Daniel F. Galouye 写了《模拟三号》（Simulacron-3），Stanislaw Lem 写了《非我仆》（Non Serviam），William Gibson 写了《神经漫游者》（Neuromancer），Neal Stephenson 写了《雪崩》（Snow Crash）。所有这些作品都用文字描绘了模拟世界。

1977 年，科幻大师 Philip K. Dick 在法国梅斯的一次演讲中自信地告诉听众：“我们生活在一个由计算机编程的现实中，唯一能让我们察觉这一点的线索，是某个变量被改变，我们的现实随之发生某种变化。”

大多数人对“模拟”的第一次接触可能是《黑客帝国》（The Matrix）。在原始剧本中，沃卓斯基姐妹设想的矩阵，是一个由人类大脑共同生成的模拟世界。那些大脑被连接在一起，形成了一个神经网络。

制片方觉得，“人类就是计算机”这个概念对大众来说太难理解了，于是做了一个热力学上有问题、但商业上更容易接受的改动：把人类变成了为模拟提供动力的电池。

从商业结果看，这个决定大概是对的。黑客帝国系列全球票房接近 20 亿美元。更重要的是，它向大众引入了一个概念：一个与“真实”世界无法区分的模拟世界。

这个想法会抓住我们的集体想象力，并不奇怪。它足够诡异，又诡异得刚刚好，而且出乎意料地难以证伪。

如果观察是一样的，动作是一样的，那么计算就是一样的。如果你看到的是一样的，做的也是一样的，那么你是在模拟中还是在现实中并不重要。你的大脑对两者的处理方式完全相同。Neo 在 Morpheus 唤醒他之前完全不知道自己在矩阵里。

2010年，克里斯托弗·诺兰拍出了《盗梦空间》（Inception）（原文注：有一个意思的事是：在 Google DeepMind 的世界模型 Genie 内部负责智能体开发的团队，其名称就叫作 Inception）。他并不回避观众的困惑，甚至像是在享受这种困惑。

梦中有梦，梦里还有梦。诺兰的核心设定是：梦是一个可控空间。人们可以从梦中提取信息，更重要的是，也可以把信息植入梦中。

但这一切都只是科幻，对吧？

1990 年，还在慕尼黑工业大学工作的年轻研究者 Jürgen Schmidhuber（LSTM 之父）发表了《让世界可微分》（Making the World Differentiable）。这篇论文提出构建一个循环神经网络（RNN），赋予它两个任务：第一，学习预测模拟世界中接下来会发生什么；第二，用这个模拟世界来训练一个 Agent 在其中行动。

这个 Agent 完全不需要与“真实”环境交互。它可以在模型内部学习，也就是在梦中学习。

第二年，因“苦涩的教训”（Bitter Lesson）闻名的 Richard Sutton 也构想了一个类似的想法。在《Dyna: 一个整合学习、规划和反应的架构》中，他主张学习、规划和反应不应该是分离的系统，而应该统一在一个单一架构中。这意味着，从技术上说，我们可以构建一个世界的模型、在其中练习、然后将学到的东西迁移回现实。

两篇论文都极具远见，它们对后来的研究产生了持久影响，研究者当年的设想如今也逐渐开始变成现实。但在当时，两篇论文几乎和科幻没有什么差别。

1990 年，全世界拥有的计算能力大约是今天的百万亿分之一到千万亿分之一。当时全球可能只有 10 到 100 个 gigaFLOPS 的总容量。到了 2024 年，仅这一年市场上就售出了数十 zettaFLOPS（10^22 FLOPS）的计算能力。1990 年，全球数字数据大约是 10 PB，这个体积小到连我们现在一次训练所用视频数据的 0.005% 都装不下。到 2026 年，这个体积已经爆炸式增长了 2,200 万倍，达到 221 ZB。

但技术在进步，最强大的梦不会轻易消失。

近三十年后，2018 年 3 月，David Ha（当时在 Google Brain）和Schmidhuber 发表了题为《世界模型》（World Models）的论文。这篇论文提出了一个问题：Agent 能在自己的梦中学习吗？

为了回答这个问题，Ha 和施密德胡伯构建了一个有三个组件的系统：一个视觉模型（V）将原始像素观察压缩成紧凑表示，一个记忆模型（M）即循环神经网络学习预测接下来会发生什么，以及一个微小的控制器（C）仅基于 V 和 M 的输出来决定做什么。

世界模型就是 V + M：它可以接收观察并想象合理的未来。控制器就是 Agent 或者说策略（policy），负责选择采取哪些动作。

Ha 和 Schmidhuber 在一个赛车游戏和一个第一人称射击游戏的观察数据上训练了他们的世界模型。世界模型生成了新的数字世界。然后他们让 Agent 完全在世界模型幻想出的梦境中练习。之后，他们将学到的策略迁移回实际环境。

它成功了。Agent 能够解决在现实中从未遇到过的任务。梦境足够真实。

从计算机科学的角度看，这确实让人震撼。但真的那么出人意料吗？这不就是人类导航世界的方式吗？

Ha 和 Schmidhuber 指出，人类不断在脑中运行世界模型。一个面对 100 英里时速快球的棒球击球手，必须在球的位置的视觉信号到达大脑之前就决定如何挥棒。每次击球不全是三振出局的原因，是击球手并非对现实做出反应，而是对大脑“内部世界模型”关于球将在哪里的预测做出反应。

加州大学尔湾分校认知科学教授 Donald Hoffman 把这个想法推得更远。他认为，我们每个人都像戴着一副“现实头显”，把量子世界令人眩晕的复杂性，简化成一个对用户友好的界面。现实太丰富了，所以我们只能通过某种持续的清醒梦来穿行其中。

这个问题可以一直往下追问，想挖多深都可以。但一路挖到底，还是世界模型。

Ha 和 Schmidhuber 表明，计算机或许能够像人类一样对待世界：创建模拟以根据行动预测未来状态，基于这些预测采取行动，然后更新并循环往复。

关键是行动，而非言语。

语言是不够的（代码也是）

我们来玩一个游戏，拍五下手。

你的双手在空间中的位置是什么？它们彼此之间的相对位置如何变化？请精确到皮秒。接触点在哪里？声音是什么样的？两只手逐渐靠近、碰到一起、再分开时，各自是什么形状？它们如何挤压彼此？两掌之间的空气发生了什么？拍手时，你的视野里看到了什么？

别忘了你的手臂。它们是如何弯曲，才让拍手这个动作发生的？这里也要精确到皮秒。你袖子上的布料有什么反应？背景里发生了什么？旁边的人注意到你在拍手了吗？他作何反应？你会不会因为在会议中读一篇本不该读的文章，还照着里面的指示拍手而被解雇？描述一下你老板额头上的那根青筋。它是不是跳起来了？

你做不到，对吧？好了，可以停了。意思已经很清楚了。

语言是对现实一种极度有损的压缩。

语言当然重要，它是我们沟通和协调的方式。“你比我猜”这个游戏表明，要传达想法，语言可以比动作高效得多。大语言模型在这件事上非常重要。但只有语言是不够的。

那代码呢？代码是一种非常精确的语言，可以让机器执行操作。我让 Claude“写一个双手在真实环境中拍五次的模拟代码”，生成出的结果“看起来非常痛苦”。

有一种信念认为，随着规模扩大，语言和代码将能够解决所有时空智能（spatial-temporal intelligence）挑战，产生通用人工智能（AGI）或超级人工智能（ASI）。也有人主张代码是解决许多现实世界智能挑战的关键，因为它可以精确地指令所有物理形态。

我们并不认同这种想法。基于代码的模拟，只是一个很粗糙的梦。它被规则束缚，很难处理现实世界中随机、混乱、不可预测的部分。

要了解世界，你必须与之交互。

赫尔曼·黑塞凭借小说《玻璃球游戏》获得 1946 年诺贝尔文学奖。在这部小说里，读者进入了一个叫卡斯塔利亚的未来知识乌托邦。那里崇尚纯粹思想，核心是一种极其复杂的游戏，也就是书名里的“玻璃球游戏”。它试图把人类所有知识综合进一种统一的形式语言中。

玩家创作一局游戏，就像作曲家写一首赋格。一步棋可能把巴赫的一首康塔塔、一个数学证明和孔子的一段文字联系起来。这个游戏是抽象的极致：整个人类文化被压缩成符号操作。

主角约瑟夫·克内希特升到了“玻璃球游戏大师”，这是卡斯塔利亚的最高职位。但他逐渐感到幻灭。游戏虽然优美，但它是贫瘠的。卡斯塔利亚的知识分子退入抽象太深，已经失去了与世界的接触。他们可以用极高雅的方式表征现实，却无法在现实中行动。

克内希特最终决定离开卡斯塔利亚，去做一名普通的家庭教师。他选择了那个混乱的、具身的、不可预测的世界，而非完美的符号世界。

他把一生献给了这个游戏。掌握这个游戏，意味着在一种超越文字的抽象层次上运作，某种意义上，已经接近世界建模。但这仍然不够。没有与现实接触，符号终究会枯竭。

大语言模型就是我们的卡斯塔利亚人。它们是符号的精湛操弄者，能在人类全部文本知识之间建立联系。它们能讨论物理学、作诗、写代码、解释棒球规则。它们真的是人类历史上最伟大的智力成就之一。

但它们完全运作在表征的领域。它们能描述拍手，但不能拍手。它们能谈论重力，但不像一个幼儿那样了解重力。幼儿通过成千上万次跌倒和踉跄，用身体学到了“向下”意味着什么。

语言模型把预测下一个 token 做到了极好。唯一的问题是，token 就像柏拉图洞穴墙上的影子。你无法只靠代码得到一个真实的体育场人群，也无法只靠描述抵达那个现场。

真实世界曾经是不可计算的，或者说，至少在过去是这样。

如果语言和代码这两个人类最强大的发明都不足以表征我们的世界，我们还剩什么？

答案是世界模型。

世界模型为通向 AGI 提供了另一条路径。它们让我们有机会计算那些在今天看来仍然不可计算的东西。它们学习的，正是克内希特最后追寻的那种与现实的混乱接触。

世界模型提供了一种高效进行非确定性计算的方法，也让我们有可能运行那些在传统计算约束下本不该实现的模拟。

世界模型不是大语言模型的替代品。语言依然必不可少。文本可以用来给世界模型设定条件，告诉它们要想象什么场景、追求什么目标，也可以为它们提供长期任务。思考和行动需要一起工作。但行动本身，必须来自文本之外。

约瑟夫·克内希特必须从卡斯塔利亚走下来。

真正的智能必须来自对世界的观察，来自理解动作及其后果，来自语言只能指向的那些东西。

道可道，非常道。（译注：出自《道德经》开篇，原文“道可道，非常道”。作者将其与后一句《圣经》引文并置，构成一组东西方哲学的呼应，语言能表达的终究有限，真正的智能不在文字之中。）

太初有言（In the beginning was the Word）。然后人类诞生，不完美地、不可预测地行动（译注：“In the beginning was the Word”出自《圣经·约翰福音》1:1，原文为古希腊语“Ἐν ἀρχῇ ἦν ὁ λόγος”，中文和合本译为“太初有道”。但原文作者在这里刻意利用了“Word”一词的双关，它既是《圣经》中万物之始的“道/圣言”，也是大语言模型所处理的“文字/语言”。作者的意思是：正如《圣经》叙事中“道”先于一切存在，在 AI 的发展叙事中，语言模型也先于世界模型出现；但正如人类随后以不完美的行动进入世界，世界模型也随之而来，将AI从纯粹的语言推向行动。此处译为“言”而非传统的“道”，以保留这层含义）。

也许事情的发展逻辑就是这样的：太初有大模型，然后世界模型诞生。

什么是世界模型？

世界模型模拟环境，并在你于其中行动时做出回应。

更准确地说，世界模型是一种交互式预测模型，它模拟的是时空环境，而这种模拟会随着动作发生变化。

大模型预测句子中的下一个词，世界模型预测下一个状态（即当前状态的即时未来），这个预测取决于当前状态，也取决于控制输入。

更简洁地说：大模型学习语言的结构，世界模型学习因果的结构。

这是世界模型的一个简单定义。它是准确的，但不足以理解世界模型如何工作。要理解这一点，你需要知道四件事：世界模型做什么、如何构建、为什么“动作”如此重要、以及世界模型和策略（policy）之间的关系。

想象一下接球时发生了什么。

你的眼睛接收一个场景：投球者的手臂、飞行中的球、风、刺眼的阳光，所有这些。面对这股感官数据洪流，你的大脑会构建一个压缩模型，理解正在发生什么；更关键的是，它还会预测接下来会发生什么。

世界模型在计算上做同样的事情。它接收观察（通常是视频帧，但也可以使用任何感官数据），构建环境状态的压缩内部表示，并预测该状态在响应动作时将如何变化。

本质上，它是一个学出来的物理引擎。不同的是，它不依赖人类手写的方程。它不是从第一性原理出发计算重力、碰撞和摩擦，而是看过数十亿次重力、碰撞和摩擦如何发生，然后从中学会模式。

这让世界模型成为构建 Agent 的重要工具。这里的 Agent，指的是能够在环境中行动的 AI 系统。世界模型主要从三个方面帮助 Agent。

第一，世界模型可以充当替代训练场。Agent 可以在世界模型内部练习，也就是在梦里练习，再把学到的东西迁移回现实。这对安全很重要，因为有些事情不应该在真实世界中测试或训练；对成本和数据效率也很重要，因为真实世界数据昂贵、难收集，而且往往不够用。

第二，世界模型让更长时间跨度的规划成为可能。Agent 可以在真正行动之前，先“想象”不同动作可能带来的后果，就像棋手提前想好几步棋。区别在于，这里的棋盘可以是任何环境，也可以是真实世界。

第三，世界模型为 Agent 学习行为提供了更丰富的世界表征。一个在世界模型内部表征上训练出来的 Agent，学到的不是如何处理原始像素，而是如何“看见”那些对行动真正重要的特征。

正因为这三点，世界模型最重要的承诺，是它可能提供一条通往泛化的路径。

如果我们能创造出一类世界，让它们像真实世界一样回应动作，就可以用它们安全、低成本、高效率地训练具身 Agent，让它们最终能在各种虚拟世界，乃至真实世界中行动。

这里也有一个世界模型领域绕不开的核心问题：这些模拟环境是否足够忠实于现实？我们能不能在模拟环境中训练模型，再把这种训练迁移到真实世界？换句话说，我们能不能“在模拟中预训练”？

越来越多证据表明，答案可能是肯定的。

Allen Institute for AI（Ai2）最近发布了 MolmoBot，一个“完全在模拟中训练的开源机器人模型套件”。他们在介绍中说：“我们的结果表明，面向操作任务的模拟到现实零样本迁移是可能的。”

参与该项目的普林斯顿教授和 Google DeepMind 研究者 Dhruv Shah 分享说：“在容易模拟的任务范围内，一个纯模拟训练的策略优于在数千小时真实数据上训练的最先进 VLA 模型！”

这是一个相当惊人的发现。General Intuition 以及更广泛的世界模型领域，接下来要做的一件大事，就是扩大“容易模拟的任务”的范围。

整体流程大致是这样：首先，世界模型想象出逼真的环境和未来状态。理想情况下，这些环境会像它训练时见过的真实世界和虚拟世界一样，对动作或指令作出回应。然后，Agent 被放进这些生成出来的世界里训练。最后，再把 Agent 带回真实环境，测试它究竟学到了什么。

这正是 Ha 和 Schmidhuber 在 2018 年展示过的东西。直到今天，它仍然是这个领域最核心的承诺。

世界模型是如何构建的

世界模型相当年轻。到目前为止，还没有哪一种单一方法，或哪几种方法的组合，被证明明显优于其他路线。这意味着，通用世界模型最终会采用什么架构，仍然是一个开放问题。

不过，训练世界模型已经有了一些相对稳定的要素。

第一步是数据，而且是海量观察数据。很多时候，观察数据会和产生这些观察的动作配对。这种配对可以有几种来源。观察数据通常是视频，可以提前收集；动作要么在采集视频时同步记录下来，要么事后由另一个模型推断出来。还有一种方式是让模型自己行动，通过与环境直接交互，生成自己的观察数据和动作数据。

如果训练数据是观察或视频，那么原始视频帧就记录了一个环境如何随时间展开。理想情况下，这些视频会带有动作标签，也就是标出是什么动作导致了画面中的变化。这些动作可以是同步记录的，也可以由另一个 AI 模型推断出来。

动作提供的是因果链接：某个人做了什么，环境因此发生了什么变化。

世界模型的核心目标始终不变：给定当前状态，以及一个动作或指令，预测下一个状态。它看到第 t 帧和动作 a，然后尝试生成第 t+1 帧对应的状态。

但如果每次都直接预测原始像素世界，成本会很高，很多时候也没有必要。视频帧中的大部分内容，在相邻时刻之间并不会变化。墙还是那面墙，天空还是那片天空。帧里的许多细节也是冗余的，比如天空的颜色、墙面的纹理，都可以用更紧凑的形式描述。

所以，现代世界模型通常会引入潜空间（Latent Space）：一种压缩后的、由模型学习出来的表示，只保留最关键的信息。

视觉编码器会把每一帧压缩成一个紧凑向量，也可以理解为这个场景的数学指纹。模型学习的，不是如何根据动作预测 4K 画面里的每一个像素，而是如何预测下一个“指纹”。计算效率正是从这里来的。

为了准确建模世界如何演变，世界模型还必须学会表示一整组可能结果。结果的不确定性，通常被称为环境的随机性（stochasticity）。

世界模型需要同时处理两类不确定性：一类是它“还不知道”的东西，即认知不确定性（epistemic uncertainty）。例如，一个从未见过红绿灯的模型，不会知道黄灯之后通常会变成红灯。另一类是本来就无法完全预知的东西（译注：即偶然不确定性，aleatoric uncertainty，比如掷骰子这样的随机事件。aleatoric 一词就源自拉丁语 alea，意思是“骰子”）。

即便模型已经学到了关于某个环境行为的一切可学信息，把认知不确定性降到了最低，接下来会发生什么，通常仍然存在某种固有的不确定性，也就是偶然不确定性。这一点和纯娱乐用途的视频模型不同。后者只要能预测一种常见的世界状态演化，就可能表现不错。

如果用一种很直接的预测方法，比如用均方误差（MSE）训练一个朴素模型，让它预测一辆车如何转弯，模型可能会变得“模糊”。原因是，它会把所有可能结果平均起来。车可能转弯后继续留在左车道，也可能并入右车道。真正最小化误差的轨迹，反而是一个不太可能发生的结果：车停在两条车道中间。这就是“模糊”的来源。不同模型会用不同方式处理这个问题。

扩散模型通过逐步生成结果来避开这个问题。它可以让模型从结果分布中锁定某一种具体模式，采样出一个清晰、合理的未来，而不是把所有可能性平均在一起。

自回归模型也可以处理多模态问题，做法是为每个结果使用多个 token，并逐个采样。这样，后续 token 的预测会和前面的 token 保持一致。

JEPA 一类架构则选择从根本上绕开这个问题。它基本不需要显式建模整个结果分布，因为它根本不会把预测结果解码回像素空间。它运行在一个“平均化”后果没那么严重的空间里。毕竟，我们并不要求这类模型预测完整画面，而是希望它们学到对下游任务有用的表征。

这个过程最终输出什么，取决于你要构建什么。

如果你要做的是一个可视化的世界模拟器，也就是一个可以观看、可以探索的东西，那么就需要通过视觉解码器，把潜空间中的预测重新解码成像素，生成关于可能未来的想象视频。Google DeepMind 和 World Labs 的演示之所以看起来真实、令人印象深刻，靠的就是这类方法。

训练世界模型的方法有很多。后面我们会通过这个领域短短 8 年的现代史，梳理这些方法如何出现、演化，并彼此借鉴。

现在只需要先记住这一点：输入观察数据，并配上导致这些观察发生的动作，世界模型由此学习预测下一个状态；而 Agent 则在这些世界中训练，学习预测下一个动作。

为什么动作是终极压缩形式

这是世界模型背后的一个关键洞察：动作是终极压缩形式。

想象一下，你决定向左迈一步，避开地上的水坑。你的大脑会处理眼前的视觉场景：人行道、水坑、周围的人、路缘、驶来的公交车。它会预测近未来会发生什么：水坑不会移动，公交车会开过去，身后的人会继续往前走。它还会评估不同选项：向左迈一步，向右迈一步，跳过去，或者干脆接受鞋子被弄湿。最后，它选择其中一个动作。

外部观察者看不到你脑子里发生了什么。他不知道你具体在想什么，不知道你潜意识里处理了哪些信息。他不知道你是不是很累，是不是赶时间；也不知道你的道德准则，或者你会怎样回答电车难题。他也不需要知道。

他看到的，是所有这些近乎瞬时计算的输出：向左迈一步。

在我看来，这就是魔法。

当然，不是每个人都会做出正确决定。把视频继续播放下去，你同样可以学到这些决定的后果：向左一步，踩进一个更大的水坑；向左一步，被车擦到；向左一步，撞翻婴儿车里的孩子。

通过数十亿次观察、指令和动作，我们学到的不只是人类如何根据输入作出反应，还有这些决定会带来什么后果。一个集体性的世界模型，最终会学会比任何单个人都更聪明地行动。

再把视角拉回到个人身上。

如果你能完美重建一个人的观察流和动作流，就几乎拥有了他与现实交互的完整记录。你会知道他看到了什么，又对此做了什么。

世界模型学习的正是这个映射。它把空间和时间压缩成紧凑表示，再利用动作推演接下来会发生什么。这也是世界模型计算效率如此高的原因。

这同样解释了为什么世界模型能够处理传统模拟难以处理的随机性。为了说明这一点，可以回到前面的曼联比赛例子，不过这次带着我们刚刚建立的理解来看。

在传统模拟引擎里，每一种可能行为都必须被编码。如果你希望 1,000 个球迷对一个进球作出真实反应，就需要为每一种反应类型写规则。计算成本会随着 Agent 数量和它们之间交互复杂度一起上升。

在世界模型里，成本固定为一次神经网络传播。随机、混乱、充满人类行为的现实，已经通过数百万小时视频训练，被吸收到模型学到的权重中。模型不需要计算“人群应该怎么做”。它已经见过人群实际会怎么做，并用这些经验作出概率预测。

这就是我所说的：世界模型是一种用来计算不可计算之物的计算方式。传统计算是确定性的：已知输入、已知规则、已知输出。真实世界不是确定性的，所以世界模型并不试图把这一切硬编码进去。它们观察、学习、行动；无论场景多复杂，计算成本都保持相对固定。

世界模型与策略

在继续往下讲之前，还需要区分两个概念。关于世界模型的很多讨论，常常会把它们混在一起。

世界模型是对环境的模拟。它接收动作，生成预测中的观察结果，告诉你：如果你做了某件事，接下来可能会发生什么。

策略（Policy）是在该环境中行动的 Agent 的大脑。它接收观察（通常还有指令）并产生动作，也就是说，它决定做什么。

世界模型是梦，策略是做梦的人。做梦的人行动，梦境作出回应。梦境发生变化，做梦的人再继续行动。

在实践中，二者的关系比这个区分听起来更紧密，也更交织。最近一些研究已经开始探索：在世界模型的基础上训练策略，或者从一开始就把二者一起构建。

做法是，先从一个世界模型的权重出发。这个系统已经学会预测接下来会发生什么。随后，不再训练它预测未来画面或未来状态，而是训练它预测未来动作。

一个学会预测世界的系统，也能更快学会如何在世界中行动。

理解和行动并不是两个事后拼装在一起的独立技能。它们更像是同一种能力的两个侧面。至少，我们和其他实验室的研究，正开始指向这个结论。

这也意味着，如果你构建出一个足够好的世界模型，就能更有效地训练一个策略，让它在这个模型生成的世界中行动。

这是这个领域在很短时间里学到的许多重要经验之一。直觉和想象力，原来是一枚硬币的两面。

世界模型简史

一方面，现代世界模型的历史似乎很容易概括。毕竟，从 Ha 和 Schmidhuber 发表《世界模型》那篇论文算起，也不过 8 年。

另一方面，8 年里发生的事情已经很多。这个领域经历了几个明显的阶段，每个阶段都围绕一个新的核心问题展开。这里先挑几篇重要论文来讲。

第零阶段发生在 1990 年到 1991 年，也就是深度学习之前的时代。当时，研究者第一次明确提出：Agent 可以学习世界的内部模型，并用它来预测和规划。他们提出并回答了一个问题：世界模型究竟应该做什么？

这就是 Richard Sutton 的 Dyna，也是 Jürgen Schmidhuber 的《让世界可微分》。在算力、数据和架构都还没有准备好之前，那个梦已经出现了，只是还停留在梦境空间里，等待现实追上它。

第一阶段发生在 2018 年到 2019 年。这个阶段问的是：“这件事真的能做成吗？”

沿着 Ha 和 Schmidhuber 的工作，最早的范式是：用视频自编码器（Video Auto-Encoder，VAE）压缩画面，用循环神经网络（RNN）建模动态，再在生成出来的梦境中训练策略。简单说，就是压缩你看到的东西，预测接下来会发生什么，然后训练 Agent 在这个模拟世界里行动。

当时真正的问题是：在想象中学习，也就是在梦中学习，是否可行？

研究者用小模型和简单环境来做概念验证。毫不夸张地说，下一个大方向，最初看起来就像一个玩具。（译注：这里化用了硅谷知名投资人、a16z 合伙人 Chris Dixon 2010 年的一篇著名博文《下一个颠覆性技术在早期往往看起来像玩具》的标题）

《基于模型的 Atari 强化学习》引入了 Atari 100k 基准：SimPLe 算法能否仅用 10 万步真实环境步骤（大约两小时的游戏时间）来学习 Atari 游戏。答案是肯定的。SimPLe 学会了玩 26 个 Atari 游戏，在样本效率上击败了竞争模型。

但它能玩得和人类一样好吗？

这就是第二阶段（2020 年到 2022 年）推动的问题：“世界模型能达到人类水平吗？”

Google DeepMind 的 Danijar Hafner 很快用 DreamerV2 给出了答案。他们使用了循环状态空间模型（Recurrent State-Space Model，RSSM），并引入离散潜在表征。这个系统会维护一个关于世界的压缩运行记忆，并随着每一次观察不断更新。

DreamerV2 成为第一个在 55 款 Atari 游戏基准上达到人类水平的世界模型 Agent。它完全在想象中训练，而且只用了一块 GPU。

同一年，DeepMind 另一个团队在《Nature》上发表了论文《Mastering Atari, Go, chess and shogi by planning with a learned model》。论文介绍了 MuZero。MuZero 同样击败了 Atari 游戏，也在围棋等游戏中表现出色，但它采用了几乎完全相反的哲学路线。

DreamerV2 会生成可以被观察的梦境环境，并在其中训练。MuZero 则完全不生成任何可观察的东西。它只在自己发明的抽象潜在表征中规划，而且效果很好。

事实上，它好到超越了那些专门为围棋设计的模型。

2016 年，DeepMind 的 AlphaGo 以 4 比 1 击败人类围棋冠军李世乭。它的训练依赖大量人类专家棋谱和自我博弈，游戏规则则是硬编码进去的。第二年，AlphaGo Zero 在没有任何人类棋谱、只有规则的情况下，完全通过自我博弈训练，以 100 比 0 击败 AlphaGo。

同一时期，AlphaZero 又把 AlphaGo Zero 的方法推广到国际象棋和将棋等其他游戏，并在几个小时内统治这些游戏。

到了 2019 年的预印本中，MuZero 进一步把规则、游戏动态和价值函数都从零学起。它只依靠观察和结果，学会了这一切。它在围棋、国际象棋和将棋上追平了 AlphaZero，而 AlphaZero 是知道规则的；同时，它还泛化到了 57 款 Atari 游戏。在 Atari 里，“规则”甚至不是一个定义清晰的概念。

每一代新模型，都移除了一些过去由人类硬编码进去的东西：规则、策略、一个局面的价值。模型不再接收这些先验，而是从零开始学会它们。MuZero 是这条路径的终点：一切都由模型自己学出来。

更重要的是，MuZero 做到这一切，并没有想象未来棋盘会是什么样。它想象的是隐藏状态，也就是训练过程中自己发明出来的抽象向量。这些向量不保证对应任何人类可以观察或解释的东西。

如果一个人去看 MuZero 对“三步之后”的内部表征，根本不会知道它在想什么，但它就是超过了此前所有模型。

MuZero 的成功，让这个领域出现了两种相互对照的路线：一种是生成式世界模型，负责产生可以被观察的未来；另一种是潜空间世界模型，在抽象空间里进行预测，尽管当时人们还未必这样称呼它。

从那以后，世界模型的进展基本沿着这两个方向同时推进：生成式路线和潜空间路线。

在潜空间路线这边，2022 年，Yann LeCun 以 Meta 和 NYU Courant 研究者的双重身份发表了一篇重要的立场论文：《通向自主机器智能的路径》（A Path Towards Autonomous Machine Intelligence）。这篇论文提出了一套与生成式模型根本不同的哲学，更接近 MuZero 的路线。LeCun 后来创办的世界模型公司 AMI，名字就来自这篇论文。

LeCun 的联合嵌入预测架构（Joint Embedding Predictive Architecture，JEPA）反对直接生成像素。和 MuZero 类似，JEPA 不预测世界“看起来会怎样”，而是预测世界“意味着什么”。它预测的是未来状态的抽象表征，并有意丢弃那些不可预测的视觉细节。

同一年，在生成式路线这边，IRIS（2022）出现了。它由 Vincent Micheli 和 Eloi Alonso 开发，两人后来都成为 General Intuition 的联合创始人。IRIS 把世界建模重新定义为一种语言建模，只不过它建模的不是词，而是图像 token 的词表。

IRIS 没有使用循环状态空间模型，而是在离散视觉 token 上使用了 GPT 风格的自回归 Transformer。简单说，IRIS 借用了语言模型的机制，把它应用到了世界建模上。

这样一来，IRIS 弥补了此前方法的一些缺口。IRIS 世界模型本质上像一个语言模型，只是它的“词汇”不是文字，而是图像和动作。这也把大语言模型的扩展特性直接带进了世界建模：高效的注意力机制、扩展定律，以及围绕大语言模型建立起来的工程基础设施，现在都可以用来学习物理世界。

Dreamer 缺少建模下一个潜在状态联合分布的能力，比如处理多模态结果的能力。IRIS 则把下一个潜在状态表示为一系列离散 token，并以自回归方式预测它们，因此可以预测多种可能结果。

还有一点不同：Dreamer 能超过人类，是因为它使用了比人类多得多的数据；IRIS 则是第一个在可用游戏数据量相同的情况下，也就是大约 2 小时游戏数据内，通过“想象中学习”超过人类的方法。

先把 JEPA 放在一边。到这个阶段为止，世界模型领域几乎所有工作都发生在游戏里。因此，在进入第三阶段之前，有必要稍微停一下，看看 AI 和游戏之间的特殊关系。

游戏一直在 AI 发展中扮演重要角色。Claude Shannon 在 1950 年发表的《编程计算机下国际象棋》，是 AI 的奠基文献之一。1959 年，Arthur Samuel 的跳棋程序引入了“机器学习”这个概念。世界第一次真正意识到智能机器可以在某件事情上击败人类，是 IBM 的深蓝在国际象棋中战胜 Garry Kasparov。

在 DeepMind 成为 AI 实验室之前，Demis Hassabis 是一名游戏设计师。17 岁时，他设计了商业上相当成功的《主题公园》（Theme Park）。

DeepMind 最早的突破，来自 2015 年发表在《Nature》上的 DQN 论文。它证明，深度强化学习可以只根据原始像素来玩 Atari 游戏。随后，2016 年 AlphaGo 击败世界围棋冠军。围棋曾被认为需要某种人类独有的直觉，因为它可能出现的棋盘局面，比宇宙中的原子还多。

从 AlphaGo 到 AlphaFold 的路径，正好经过了世界模型后来形式化的那个洞察。Hassabis 曾说：“如果我们能模仿这些玩家的直觉，那不是很不可思议吗？顺便说一句，他们其实只是业余生物学家。”

General Intuition 的名字，正来自 Demis 的这句话。它指向的是一个未来：模型驱动的研究可以超越今天像素所能描述的动态，超越游戏本身，进入我们的身体。

后来，DeepMind 让机器学会了蛋白质折叠。AlphaFold 也让 Hassabis 和他的 DeepMind 同事 John Jumper 获得了 2024 年诺贝尔化学奖。

游戏当然有趣。但游戏之所以反复出现在 AI 发展史里，是因为它们是少数能够提供海量带标签时空数据的领域：动作和结果之间的对应关系清晰，物理规则一致，奖励信号明确，环境可控，还可以重复做数百万次实验。真实世界不具备这些条件。

早期世界模型就像人类儿童一样，大部分时间都在观看和玩游戏。Atari 100k 成为世界模型研究的标准场地，DreamerV3 玩 Minecraft，今天很多世界模型公司也仍然和游戏保持联系，许多世界模型本身就是“可玩”的。

游戏是具身 AI 的实验台。但这只覆盖了整个雄心的一小部分。世界模型要真正有用，就必须能和真实世界交互。

这就是第三阶段，发生在 2023 年到 2024 年。它追问的是：“世界模型真的能交互吗？”

第一个答案来自自动驾驶。

GAIA-1（2023）由 Wayve 开发，把 IRIS 开创的序列建模方法扩展到 90 亿参数，并用真实世界驾驶视频训练。它可以根据动作生成驾驶场景，比如转动方向盘；也可以根据文本提示生成，比如“雨天，高速公路”；还可以同时根据二者生成。领导这项研究的 Anthony Hu，现在负责 General Intuition 的世界建模工作。

GAIA-1 证明，人们在大语言模型中观察到的扩展定律，同样适用于视觉世界模型。更多数据、更大参数，也会可预测地带来更好表现。这一点并非理所当然。它意味着，前进道路虽然昂贵，但方向很清楚：扩大规模，模型就会变得更好。

第二年，DIAMOND（2024）打开了新的架构前沿。它由 General Intuition 未来的联合创始人 Eloi Alonso、Adam Jelley 和 Vincent Micheli 开发。

自 IRIS 以来，研究者通常会把观察压缩成离散 token，再用自回归方式预测。DIAMOND 则不同，它使用扩散模型直接预测未来帧。

视觉保真度因此明显提高，而这种丰富度也直接转化成了更好的 Agent 表现。那些被离散 token 丢掉的细微视觉线索，比如一个表面是否湿滑、一扇门是否半开、一个人是否即将改变方向，事实证明都对决策很重要。仔细想想，这并不意外。

顺带一提，世界建模领域许多开源进展都建立在 DIAMOND 架构之上。第一个 AI 生成的多人游戏 Multiverse 基于 DIAMOND，被称为“第一个世界模型游戏引擎”的 Alakazam 也是如此。DIAMOND 基本可以看作生成式世界模型里的 DeepSeek 或 Llama。

DIAMOND 本身在 Atari 100k 上创造了新的最佳成绩，也展示了一个真正抓住公众想象力的东西：它用大约 87 小时的《反恐精英》游戏素材，在单块 GPU 上训练出了一个完全交互式、可玩的神经游戏引擎。

它证明，实时运行一个交互式 3D 世界模型也是可能的。

DIAMOND 擅长玩 Atari。Agent 玩真正的游戏并在那里收集真实数据，用这些数据训练世界模型。然后它在世界模型的合成环境中测试自己，在那里变得更好，然后回到外面进行更多真实交互。这种在 ground truth 和合成之间来回循环的方式，就是世界模型改进的方式，几乎像在清醒梦中解决问题，然后在醒来后的现实中测试它们。这就是前面提到的 Dyna 范式。

这个循环在真实世界条件下也能工作吗？答案也是肯定的。而且效果很好。

GAIA-2（2025 年 3 月）将扩散方法推向了其最雄心勃勃的应用：多摄像头自动驾驶模拟。它可以生成以自车动态、其他 Agent 轨迹、天气、一天中的时间、道路结构为条件的高分辨率环视驾驶视频。简而言之，它可以再现真实驾驶的全部复杂性。它可以模拟在真实道路上太危险或太稀有而无法收集的场景：突然的加塞、紧急制动、行人走下路缘。

GAIA-1 和 2，以及 DIAMOND，和 IRIS 一样，都是现在在 General Intuition 工作的研究者的成果。扩散或流匹配（flow-matching）模型如 GAIA-2 是团队当前研究工作的起点。

但这不是唯一的方法。

Google DeepMind 是这个领域的核心玩家之一。他们的世界模型 Genie（2024 年）是一个 110 亿参数的模型，在未标注的 2D 平台游戏互联网视频上训练。它完全从零学习了一个动作空间；没有人告诉模型控制方式是什么。给它任何图像，它就能从中生成一个可玩的世界。

OpenAI 的 Sora（2024 年，Sora 2 在 2025 年跟进）和 Google 的 Veo 3（2025 年）将视频生成推向了非凡的视觉质量，并将这些系统明确定位为“世界模拟器”。

该领域的词汇可能会变得混乱。让我们说清楚。视频生成模型产生美丽的视觉序列，但它们并不完全是我们一直在描述的那种世界模型。在这些视频中，你不能采取动作并看到环境实时回应你的干预。它们预测一个场景随时间会看起来怎样，但不试图建模因为你做了什么而发生了什么。

想想看一个驾驶电影和实际握方向盘驾驶的区别。视觉输出可能看起来相似，但底层计算根本不同。交互性，即那种采取动作并观察其后果的能力，是世界模型和一个非常令人印象深刻的视频之间的分界线。

交互性也是影响现实世界所需要的。

这是第四浪潮的核心问题，也是我们现在所处的浪潮：“模型能在真实世界中行动吗？”

也就是说：在世界模型中训练的 Agent 能否在研究环境之外工作，在真实车辆、真实机器人、真实部署中？

Comma.ai 在自动驾驶领域走了最直接的路径：他们完全在学习到的世界模型内部，即在“梦境”中，训练了一个驾驶策略，并将其部署在 openpilot 中，他们运行在真实车辆上的开源驾驶辅助系统。世界模型训练的策略优于传统模仿学习和在常规模拟器中训练的策略。这可以说是第一个由世界模型训练的 Agent 驱动的消费产品。

在机器人领域，Meta 的 V-JEPA 2 使 LeCun 的潜在预测哲学具象化。这是迄今为止最清晰的大规模概念验证。这个 12 亿参数的模型在超过一百万小时的视频上通过自监督掩码预测进行预训练：没有标签，没有文本。

第二阶段，仅在 Droid 数据集的 62 小时机器人数据上进行微调。事实证明这足以产生一个支持零样本规划的动作条件化世界模型。V-JEPA 2 在新环境中零样本部署在真实的 Franka 机械臂上执行取放任务。它完全在潜在空间中规划，不需要像素生成、任务特定训练或手工设计的奖励。而且它很快，像素空间方法需要几分钟来规划一个动作，V-JEPA 2 只需几秒。

Google DeepMind 的 SIMA 2 采取了完全不同的方法。与构建专门的世界模型不同，它微调了 Gemini 使其直接在 3D 游戏环境中作为 Agent 行动。SIMA 2 可以推理高层目标、遵循复杂的多步骤指令、与用户对话，并泛化到未见过的环境。

它代表了一种替代范式：不是构建专门的世界模型，而是利用已经嵌入在一个经过人类全部知识训练的模型中的隐式世界知识。

这是该领域的开放问题之一。这种使用大型基础模型或视频模型作为 Agent 的基础，而不是从零开始在世界模型中训练 Agent 路径，最终会胜出吗？

事实上有许多开放问题，以及几乎同样多的世界模型初创公司在尝试回答它们。

世界模型的当前格局

这就把我们带到了当下。毫无意外，如今顶尖研究者和投资人都对世界模型的潜力感到兴奋。几家由领域传奇人物创办或领导的公司，接连拿到大额融资，就是最直接的证据。

2026 年 2 月，李飞飞创办的 World Labs 宣布完成新一轮 10 亿美元融资，投后估值 54 亿美元。

Yann LeCun 也不甘落后。他在 2025 年底创办 AMI Labs，上周宣布公司完成 10.3 亿美元融资，估值 35 亿美元。

2025 年 10 月，我们的公司 General Intuition 宣布完成 1.337 亿美元种子轮融资。去年夏天，Decart 以 31 亿美元估值融资 1 亿美元。11 月，Physical Intelligence 为机器人基础模型融资 6 亿美元，估值 56 亿美元。今年 2 月，英国自动驾驶公司 Wayve 完成 12 亿美元融资，估值 86 亿美元；GAIA-1 和 GAIA-2 正是由 Wayve 的研究者开发出来的。

Google DeepMind 不需要融资，因为它背后有史上最强大的商业机器之一。它正在把大量资源投入 SIMA、Genie 和 Veo，并把这些能力用于 Waymo 等项目。Demis 也公开表示，他相信世界模型会成为 Gemini 规划能力的重要组成部分。Google DeepMind 还在把许多相关能力整合进一个“Video Thinking”团队。

更不确定、也更有意思的是，这项技术正处在一个特殊节点：我们知道大事正在发生，但还不知道究竟哪条路线，或哪几条路线的组合，会最终胜出。General Intuition 几乎每天都能看到新的突破，我们也听说其他实验室正在发生类似跃迁。

接下来，可以用一个框架来看世界模型领域的各种新闻。我们不可能覆盖所有公司和路线，如果漏掉你关心的具身 AI 项目，先说声抱歉。读者也可以把那些没被提到的项目，放进下面这个框架里自己判断。

世界模型相关路线大致可以分成三类：当前基础模型、世界模型，以及具身 Agent。

需要记住的是，虽然大家采用的世界模型路线不同，最终目标其实一致：做出能够泛化的 Agent，让它们能在各种环境中完成任务，包括真实世界。一些 Agent 路线把大语言模型当作跳板，另一些从视频模型出发。还有一些路线把世界模型当作训练环境，也有一些 Agent 直接从经验中学习。

基础模型

当前的基础模型学会了理解世界数据但不能模拟随机世界环境本身。它们处理文本、图像、视频等输入，并学会预测、生成或重建。但它们还没有给 Agent 一个行动的地方。它们不是动作条件化的。它们不回应或交互。它们是可以构建世界模型的潜在基底，或者在某些情况下是 Agent 预训练的基础。

大语言模型从惊人数量的文本中学到了世界有结构。它们知道杯子被推下去会掉，火是热的，下雨天不带伞出门会被淋湿。它们编码了大量的因果和物理知识。但这些都不是来自经验。像数字版的卡斯塔利亚人，它们阅读了关于世界的描述而非感知它。这使它们作为推理和规划的骨干极其有用，这也是为什么你会在许多 Agent 架构中找到嵌入的 LLM。

但光靠语言模型无法模拟机械臂去拿杯子时会发生什么。在世界模型的语境中，LLM 在讨论 VLA（视觉 - 语言 - 动作模型）时特别相关，后者利用了为 LLM 开发所投入的巨大研究、资本、工具和基础设施来引导能在物理世界中做事的机器人。

视频模型

没有人会把大语言模型误认为世界模型，但很多人会把视频模型和世界模型混为一谈。

这些模型用互联网上海量视频数据训练，本身也能生成极其惊艳的视频。Sora 可以生成一个女人走过东京霓虹街头的可信镜头。Veo 3 可以渲染出带同步对话的照片级场景。

但你不能和它们交互。你不能在其中采取动作，并立刻看到环境作出回应。它们预测的是一个场景随时间会变成什么样，而不是建模“你做了什么，因此发生了什么”。

当然，边界正在变得模糊。

Odyssey 由两位自动驾驶领域资深人士 Oliver Cameron 和 Jeff Hawke 创办，前者曾在 Cruise 工作，后者曾在 Wayve 工作。它正在构建一个“用视频做梦的世界模拟器”。目前，它还不能让你采取动作并观察环境回应，但它已经允许用户在视频播放过程中输入提示，实时改变视频走向。界线到底应该画在哪里，变得没那么简单。

无论界线在哪里，视频模型正在变得越来越强，也越来越有娱乐性。

不过，按照本文的定义，视频模型还不完全是世界模型。它们更像一个跳板。Runway 最初是一家视频生成公司，Gen 4.5 也是市场上最强的视频模型之一。但 Runway 已经得出结论：具备物理感知能力的视频生成，是通往更大目标的一条路径。

这种判断催生了 GWM-1。Runway 明确把它称为“通用世界模型”，目标是实时模拟现实。它是交互式的、可控的，也是通用的。

真正的价值，无论是商业价值还是社会价值，都不会来自“为了视频而生成视频”。更重要的是，用视频作为训练环境，最终走向对具身系统的控制。

3D 重建和生成模型

再往前走一步：如果你不仅能观看视频生成模型描绘的场景，还能在其中穿行呢？这听起来就很像一个“世界”了，对吧？

李飞飞领导的 World Labs，是这个类别里最有代表性的例子。李飞飞是 ImageNet 的创建者，也常被称为“AI 教母”。虽然大多数人一听到“世界模型”，很可能会想到 World Labs，但按照本文的定义，World Labs 目前还不是在构建真正的世界模型。

在早期阶段，World Labs 主要聚焦沉浸式虚拟世界，但这些世界并不是以动作为条件的。它的第一个产品 Marble，可以根据文本、图像、视频或 3D 布局生成和编辑持久存在的 3D 环境。World Labs 称之为“多模态世界模型”。

不过到目前为止，Marble 还不是交互式的。用户可以在生成出的环境里移动，但除此之外，世界并不会根据用户行动实时回应。World Labs 自己也承认这一点。在 Marble 的产品页面上，它把交互性描述为未来机会：

未来的世界模型将让人类和 Agent 以新的方式与生成世界交互，解锁模拟、机器人等领域的更多应用。

值得注意的是，World Labs 最近也开始探索另一类世界模型：不再生成整个世界的底层 splats（高斯泼溅），而是直接生成帧。

世界模型

按照本文的定义，世界模型是一个 Agent 可以在其中行动、并能实时回应行动的环境。它是一个模拟，一个梦；不是手工编码出来的，而是从观察数据和动作数据中学习出来的。

Agent 采取一个动作，世界随之改变，Agent 再观察发生了什么。这个过程在大量不同情境中重复数百万次。理想情况下，最终得到的 Agent 能够泛化，做出原始训练数据中没有出现过的事情。

关键区别就在这里：世界模型是以动作为条件的。它会根据 Agent 刚刚做了什么，预测世界接下来会是什么样。

直觉并不复杂。一个只用真实世界数据训练出来的机器人，见过的厨房是有限的，见过的杯子是有限的，见过杯子掉落的方式也是有限的。把它放进一个从没见过的厨房，给它一个从没见过的杯子，它就会吃力。

但如果机器人是在世界模型中训练的，原则上，它可以见过无限多个厨房，因为世界模型可以生成它们。那些在真实世界中罕见、昂贵或危险的场景，在模拟中可以变成常规训练样本。分布外问题，也就被拉回了分布内。

在世界模型内部，又有两条主要路线：潜空间世界模型和生成式世界模型。

这里稍微深入一点，因为这是很多人容易混淆的地方。生成式世界模型和潜空间世界模型都依赖潜在状态，但二者的潜在状态来源不同。生成式世界模型依赖的是为重建目标设计的潜在状态，通常来自自编码器，因此可以进一步预测画面帧。潜空间世界模型则直接构建自预测表征，不以还原画面为目标。

用一个比喻说，潜空间世界模型生于黑暗，也一直生活在黑暗中；生成式世界模型只是生于黑暗。

潜在世界模型

潜空间世界模型可以看作 MuZero 的后代，只不过它们被放进了像真实世界这样开放、没有明确规则的环境里。

这是 Yann LeCun 现在所在的世界。20 世纪 90 年代，他通过 LeNet 开创了现代计算机视觉架构，引入了卷积神经网络（CNN）的核心思想。2010 年代，他大力推动自监督学习，认为依赖人类标注数百万样本无法通向真正智能，模型应该从原始数据中自己创造学习信号。到了 2020 年代，他领导了 JEPA 团队。

贯穿 LeCun 研究的一条主线，是让模型自动从原始数据中学到有用的世界表征。潜空间世界模型，正是这条主线最新、也可能是最终的一支。

这种方法在哲学上几乎站在视频模型和 3D 重建模型的反面。后两者关心的是生成和理解每一个像素；潜空间世界模型，尤其是 JEPA，则说：别费这个劲。

JEPA 不让模型在不可预测未来的每一个像素上绊倒。它干脆不预测像素。

LeCun 的说法是：“世界是不可预测的。如果你试图构建一个生成式模型，预测未来的每一个细节，它会失败。JEPA 不是生成式 AI。”

相反，JEPA 学习在抽象、压缩的空间中表征视频，并在这个空间里做预测。它有意丢弃不可预测的视觉细节。这让 JEPA 在规划和表征学习上可能非常高效。AMI Labs 就是 LeCun 对这条路线的押注：他相信它通向真正智能。投资人最近也用 10.3 亿美元支持了这个判断。

潜空间路线和生成式路线一样，也有取舍。

LeCun 认为，许多人眼中最大的取舍，也就是用保真度换速度，其实并不是真正的取舍。在他看来，被丢掉的那些细节，本来就应该被丢掉。试图预测每一个像素，不仅成本高，而且会适得其反：模型把容量浪费在本质上不可预测的视觉细节上，而不是去学习真正对推理和规划有用的抽象因果结构。

想象一下，如果你在脑中模拟接球时，必须模拟每一个光子会怎样，你的大脑可能会爆炸。

所以，一定存在某个最佳细节层级。它不是“所有细节”。LeCun 的观点是，在世界模型里，这个最佳层级需要的细节，比很多人想象得更少，也比我们想象得更少。

不过，潜空间路线还有其他取舍，LeCun 没有特别强调。

第一个问题是，潜空间模型更难评估。对于生成视频，你可以直接看输出，凭直觉判断它是否合理。但潜空间模型不能这样做。它也很难作为人在回路系统的训练场，因为人类无法在潜空间里操作。我们必须看见世界，才能在世界中行动。

另一个相关缺点是，当你无法可视化预测结果，也无法直观解释损失时，迭代速度会变慢。人类很擅长发现视觉上哪里不对劲；但我们并不是进化来识别未来潜在编码里的差异的，比如 [0.13, -1.02, 0.44, 0.07, …]，MSE = 0.0187 这种东西。

而迭代速度，恰恰是现代机器学习中最重要的因素之一。现代机器学习的进步，主要来自经验性搜索，而不是一开始就知道正确设计是什么。

出于类似原因，潜空间模型训练起来也更难。此外，由于学习目标中缺少强监督，它们容易出现表征坍缩，需要很多技巧来修正。

原因在于，JEPA 的目标是根据过去的编码预测未来的编码。但这个目标可以被平凡解满足。比如，把所有东西都编码成 0，损失也会是 0。因此，研究者必须确保表征不会坍缩。

如果把“为 Agent 创建训练环境”看成一条光谱，一端是今天实用的方案，另一端是柏拉图式的理想。潜空间世界模型几乎位于 VLA 的反面，更接近研究者眼中的技术理想形态。但在今天的实践中，它仍然面临很真实的挑战。

当然，像 LeJepa 这样的新方法正在缩小这个差距。

Chris Manning、Ian Goodfellow 和 Fan-Yun Sun 也加入了潜空间世界模型阵营，创办了 Moonlake。Manning 是神经自然语言处理的重要开创者之一，也参与创建了 GloVe。Goodfellow 则发明了 GAN，也就是生成对抗网络。

Moonlake 的计划很有意思：先生成完整的游戏环境，吸引人类玩家进入其中，从而收集带动作标签的数据；随后，在语义或符号空间中建模世界，而不是在像素空间中建模。

换句话说，他们用漂亮的游戏环境吸引真实人类玩家，因为他们需要人类产生动作标签数据。但一旦数据收集完成，就会彻底丢弃像素，转而在抽象表征上训练模型。

归根结底，潜空间模型和生成式模型不应该被看作彼此对立。Moonlake 的混合方法就是一个例子。二者只是服务于不同目标。

潜空间世界模型通常会丢弃一部分信息，因此计算效率更高，在表征学习和规划上有优势。生成式世界模型理论上捕捉了全部视觉信息，因此更通用，在可解释性和泛化上更有优势。

生成式世界模型

现在来看生成式世界模型。

在我们知道的所有方法里，生成式世界模型最接近于模拟人类感知到的现实。如果我们的世界真的是一个模拟，它很可能就是某种生成式世界模型。

这也是 General Intuition 主要押注的范式。我们的策略就在这类世界模型中学习。Google DeepMind 最近发布 Genie 3 时，让整个世界震惊的，也是这条路线。

如果你看过 Genie 3 的演示，或者有机会亲自玩一玩，就能直观感受到生成式世界模型的不同。它们是交互式的。它们会回应你。

生成式世界模型会生成人类可以观察的、可交互的未来。你可以看到它，在里面行动，并从中学习。你能看到模型认为接下来会发生什么。模型接收一个状态和一个动作，生成一个合理的下一个状态；你可以在这个新状态里继续行动。基于更新后的状态和新的动作，它再生成下一个合理状态，如此循环。

人类可以直接看着输出判断：“这不对，墙不会那样弯曲。”或者：“对，高速转方向盘时，确实会发生这种事。”

生成式世界模型预测的是观察本身，可以是像素、视频，也可以是 3D 场景。因此，Agent 和人类都能与模拟环境交互。这个梦是可见的，也是可玩的。

在很多情况下，这会改善训练循环。生成式模型和潜空间模型都可以在想象中学习。但当视觉细节很重要，或者下游任务还不明确时，保留所有像素级细节的生成式世界模型，往往会有更好的学习效果。

前提是，生成环境必须足够丰富，值得从中学习。生成世界偏离现实越远，Agent 从中学到的经验就越差；当它回到真实游戏或真实世界时，表现也越不可靠。DIAMOND 证明的正是这一点：生成世界的细节越多，Agent 越聪明。

General Intuition 正是在这种扩散和流匹配架构之上继续构建。这个方向的一部分基础，来自我们现在的联合创始人；他们曾开发 IRIS、DIAMOND 和 GAIA-2。

Wayve 是自动驾驶领域生成式世界模型的领先者，也是 GAIA-1 和 GAIA-2 的诞生地。Wayve 的思路是，在车外用一个大型潜在扩散世界模型“做梦”，生成现实中可能要开数百万英里才会遇到的边缘案例；再用这些场景训练驾驶策略，在模拟中评估策略表现；最后，把这些梦境经验蒸馏进一个更小的车载策略中，让它能实时处理类似场景。

Wayve 创始人 Alex Kendall 最近展示了系列视频中的一个案例：模型在日本道路上进行零样本自动驾驶，从高速公路到湿滑、拥挤、狭窄的城市道路，都能完成驾驶。

Decart 则把生成式世界模型用于实时生成模拟，创造出会回应用户动作的可玩世界。它可以看作生成式视频模型或 3D 重建模型的可玩版本。在 Oasis 的产品页上，Decart 把这个模型称为“视频模型”，但后面又补充了一个关键区别：“你迈出的每一步，都会实时重塑周围环境。”

有意思的是，Decart 目前运行在 Nvidia GPU 上，但计划使用 Etched 的 Sohu 芯片。Etched 的芯片是为运行 Transformer 定制的 ASIC，可以帮助 Decart 降低延迟，并进行连续推理。相比提前生成一段视频或一个 3D 渲染结果，实时生成可响应的世界，对低延迟和连续推理的要求要高得多。

Runway 也在模糊视频生成和世界生成之间的界线。前面讲视频模型时提到过，Runway 最初从“生成式 AI 模型可以成为创作表达工具”出发，后来逐渐走向世界模型。当然，它在视频模型上仍然进展很快。

在 2025 年 Research Demo Day 上，Runway 联合创始人兼 CTO Anastasis Germanidis 解释了公司的演进：“要构建世界模型，我们首先需要构建一个非常好的视频模型。我们相信，这是构建世界模型的正确路径。教模型直接预测像素，是实现通用模拟的最好方式。”

Google DeepMind 采取了类似路线。Genie 3 就建立在 Veo 之上。

这些世界模型非常重要。但要记住，它们只是等式的一半。从一开始，无论是 1990 年的 Schmidhuber，还是 1991 年 Sutton 的 Dyna，目标都不是只构建一个世界模型，而是用世界模型训练 Agent，让它们在世界中行动，再把学到的能力迁移到真实世界。

具身 Agent

下面看几个今天比较重要的具身 Agent 案例，以及它们各自采用的方法：Physical Intelligence 和其他机器人公司的 VLA（Vision-Language-Action Models，视觉-语言-动作模型）、DreamerV4 的潜空间世界模型 Agent、Google DeepMind 的 SIMA 2 通用具身 Agent，以及 General Intuition 的通用 Agent 路线。

Physical Intelligence：视觉-语言-动作模型（VLA）

现代多模态大语言模型通常会包含一种模型，叫 VLM（Vision-Language Model，视觉-语言模型）。它既能看，也能读。给它一张图片，再问它“桌上有什么东西？”或者“这扇门是开着还是关着？”，它可以给出连贯、基于画面内容的回答。

从这个意义上说，GPT-5、Gemini 和 Claude 都是 VLM。它们能看，也能推理。你给模型发一张山的照片，让它判断照片拍摄地点时，它用到的就是 VLM 能力。

VLM 也是很多现代 Agent 系统的感知和推理骨干，尤其是那些要在物理环境或交互式环境中运行的系统，比如 PaLM-E 或 SpatialVLM。

VLM 本身还不完全是 Agent，但它是许多 Agent 的核心组件。之所以在这里提到它，是因为 VLA 可以理解为一个学会行动的 VLM。它是对 Agent 问题的一种实用主义解法。

2023 年，Google DeepMind 发表了 RT-2 论文，全名是《Vision-Language-Action Models: Transfer Web Knowledge to Robotic Control》。它提出了一种方案：先拿一个能理解场景、也能理解该做什么的 VLM，再给它接上一个动作头（action head），把人类语言指令翻译成机器人可以执行的指令，比如改变位置或旋转。

从那以后，VLA 成为机器人领域的主导范式，而且效果出人意料地好。

我们前面讨论的其他范式，大体都在说同一件事：图像、视频、空间和动作，与文字有本质区别。因此，用来生成它们的模型，在训练方式和架构上都应该不同于生成文字的模型。

VLA 的回答则是：也许如此。那些方法在理论上可能更接近理想形态。但在实践中，这不重要，因为视觉-语言模型的基础设施和数据积累已经遥遥领先。

在 Not Boring 之前关于机器人的文章中，Standard Bots 的 Evan Beard 曾详细解释 VLA 在机器人中的作用，并提出一个“辛辣观点”：我们使用语言模型基础设施，并不是因为它是机器人最完美的架构。原因是，作为一个物种，我们已经投入了数万亿美元和无数工程时间来建设大语言模型基础设施。复用这台机器，实在太有吸引力。

所以，即便这种方法并不完美，把一个大语言模型拿来，加上一个用于预测机器人动作的动作头，也就是 VLA，仍然是今天训练机器人基础模型的最好方式之一。它可以从不同客户、不同任务的大量演示中学习多种技能。

这个思路确实很聪明。当然，它也有问题。Evan 提到过几个挑战：机器人到目前为止的成功，很大程度上依赖扩散式控制；大语言模型是自回归、基于 token 的系统，容错空间更小；而物理动作并不能干净地映射成 token。

此外，与世界模型相比，VLA 需要收集大量真实世界机器人数据；它们在分布外任务上的泛化能力，看起来也并不特别强。

即便如此，Physical Intelligence，也就是 π 或 Pi，已经凭借 VLA 这条路线走得非常远。

Pi 的第一个通用策略 π₀，继承了互联网规模预训练带来的语义知识和视觉理解能力，并在 7 个不同机器人平台、68 个独特任务的数据上训练，包括叠衣服、收拾餐具、布线、组装箱子、装杂货等。这些任务都需要机器人在真实硬件上完成现实世界中的灵巧操作。

后续模型 π₀.5 更强调开放世界泛化能力。在模型从未见过的新环境中，比如清理一间厨房或卧室，它表现得更好。

问题是，它能不能在真实世界中一边工作、一边犯错，并随着经验积累变得更好？

2025 年 11 月发布的 π*0.6 表明，这是可能的。它展示了机器人从经验中学习的能力，任务包括制作浓缩咖啡、折叠纸箱和叠衣服。

但这些仍然是比较简单、重复性较强的任务。机器人看到的大部分东西仍然在分布内。它能不能完成更复杂、耗时更长的多步骤任务？

本月早些时候，Pi 发布了带长短期记忆的 VLA，展示了使用 MEM（Multi-scale Embodied Memory，多尺度具身记忆）的机器人可以清理整间厨房、为一道菜准备食材，还可以烤一份芝士三明治。它们也能从错误中学习。

一个机器人尝试拿起一根筷子，或者打开冰箱门。没有记忆时，它会反复以同样方式失败。每次尝试都像从零开始，不知道刚才出了什么问题。有了记忆后，它会在第一次失败后换一种方法。然后，它成功了。

MEM 并没有改变底层架构，而这个架构对具身系统来说仍然不是最优。大部分参数仍然留在语言骨干中，动作头也仍然位于推理之后。但 Physical Intelligence 的存在提出了一个很有意思的问题：这些架构限制，在实践中真的重要吗？

如果潜空间世界模型位于“柏拉图式理想”和“实用主义”光谱的一端，那么 VLA 就在另一端。

到目前为止，Pi 已经通过工程手段绕过架构限制，做出了越来越强的机器人。它们的进展没有放缓，反而像是在加速。

这类赌注有历史先例。理想技术，也就是技术上更优越的方案，并不总是最终赢家。这是 W. Brian Arthur 1989 年论文《竞争性技术、递增收益与历史事件锁定》的核心结论。市场往往会收敛到最先被大规模采用的技术上，因为采用本身会带来递增收益：早期产品更好，带来更多用户和资本；更多用户和资本带来更好的数据、更多内部人才和开发者；这些又继续带来更好的产品，进一步吸引用户和资本。

Sara Hooker 2020 年的论文《硬件彩票》也表达了类似观点：“硬件彩票”指的是，一种研究想法之所以获胜，是因为它适配当时可用的软件和硬件，而不是因为它本身优于其他研究方向。

从外部看，Pi 的策略似乎是借助 Transformer 架构已经形成的递增收益，并试图制造自己的递增收益。它希望在专门为世界模型设计的架构真正形成势能之前，先用 VLA 创造路径依赖，赢下属于自己的“硬件彩票”。

押注这条路线的并不只有 Pi。它最直接的竞争对手 Skild，也在基于 VLA 构建。许多机器人公司也以不同方式使用 VLA 和 VLM。现在，这种方法看起来还在向整个工厂场景扩散。

最近，《华尔街日报》报道称，OpenAI 前首席研究官 Bob McGrew 正在为自己的新公司 Arda 融资 7,000 万美元，估值 7 亿美元。该轮融资由 Founders Fund 和 Accel 领投，Khosla 和 XYZ 参投。公开细节不多，但《华尔街日报》的描述听起来，至少会涉及某种形式的 VLM 和 VLA：Arda 正在开发一个 AI 和软件平台，其中包括一个可以分析工厂车间视频，并用这些视频训练机器人自主运营工厂的视频模型。

越多资金充足、人才密集的公司进入这个方向，这条路就会被踩得越深。

我个人并不认为 VLA 和世界模型真的在竞争。它们只是从不同方向走向同一个目标：让机器能够在物理世界中行动。VLA 是语言优先，世界模型则是视频和动作优先。我猜，二者最终会汇合，并共同成为解决方案的一部分。

DreamerV4：潜在世界模型 Agent。

潜空间世界模型 Agent，指的是在潜空间世界模型中训练出来的 Agent。单看 Agent 训练这件事，潜空间路线有一种天然的优雅。

因为潜空间世界模型运行在压缩后的抽象空间里，Agent 的规划和策略学习可以非常高效地发生，不需要生成像素。某种意义上，Agent 是通过“思考”来练习：就像国际象棋大师在脑中推演变化，而不需要真正移动棋子；也像清醒梦者在梦里训练自己。

最典型的例子是 Dreamer，来自现在在 Google DeepMind 工作的 Danijar Hafner。

Dreamer 的洞察很简洁：如果你有一个足够好的潜空间世界模型，训练时就完全不需要接触真实环境。Agent 可以完全在潜空间中想象一系列动作及其后果，接收奖励信号，然后更新自己的策略。整个过程不需要任何一次真实世界交互。当它最终进入真实环境时，它已经知道该怎么做。

Dreamer 在很多任务上都取得了显著结果，从游戏到连续控制，再到机器人任务，靠的都是这种纯粹在想象中进行的训练。它是世界模型训练可行性的一个研究级概念验证：Agent 可以通过做梦学会如何在真实世界中行动。

现在，Hafner 看起来正在把这项研究商业化。3 月早些时候，The Information 报道称，他和 Wilson Yan 正在为一家名为 Embo 的世界模型公司融资 1 亿美元。这个范式看起来瞄准的是具身系统。

挑战在于，和潜空间世界模型整体一样，Agent 学到的行为质量，取决于潜在表征的质量。如果世界模型的抽象编码漏掉了某些因果上重要的东西，比如决定机器人是否会打滑的地面精确纹理，或者决定一个物体能否被抓住的具体角度，Agent 就不会知道这些因素重要，因为模型压根没有把它们编码进去。

垃圾进，垃圾出。只是这里的垃圾是看不见的。

前面提到的 Moonlake 混合路线，正是在试图穿过这个针眼：用漂亮的生成式环境吸引人类玩家，收集带动作标签的数据；然后丢掉像素，在抽象空间中训练 Agent。用生成式世界拿数据，用潜空间世界做学习。

这是一个有意思的赌注：两条路线也许不是竞争关系，而是互补关系。它可能是对的。

还有一点值得注意：我们目前还没有看到 JEPA Agent。JEPA 是一种世界模型架构，不是 Agent 架构。但我们预计 AMI Labs 会把这个闭环补上。AMI 仍在构建自己的世界模型，在其中训练的 Agent 还没有公开展示出来。但我们会密切关注。

SIMA 2——基于 VLM 骨干的通用具身 Agent。

2025 年 11 月，Google DeepMind 发布了 SIMA 2，全名是《一个能在虚拟世界中与你一起游戏、推理和学习的 Agent》。

SIMA 2 把 Gemini 骨干和一个在 3D 游戏环境上训练的世界模型结合在一起。Gemini 给 Agent 提供语言理解能力，让它能够接收目标并推理目标；世界模型则提供时空理解能力，让它能够执行这些目标。在这个架构中，Gemini 扮演的角色，类似前面提到的 VLM 在许多系统中的作用。

它和 VLA 的不同，在于谁是“一等公民”。

在 VLA 中，语言是一等公民，图像是二等公民。除了模态顺序不同，训练数据也不同：VLA 大多使用静态图像和文本交错的数据。

而在配备世界模型的 Agent 中，视频是一等公民，动作从一开始就被引入，训练数据也直接对齐下游希望得到的行为。这个 Agent 的基础能力是时空性的。你告诉它需要做什么，它知道如何在世界中移动并完成这件事。

SIMA 2 可以自己玩游戏。它可以学习、推理和改进。它玩得越多，就越强。不只是它已经玩过的游戏，任何游戏都会如此。它甚至能被扔进任意一个生成世界中游戏，即便此前从未见过那个世界。

Google DeepMind 认为，这是“朝着创造一种能在任何地方帮助完成任何任务的 AI 迈出的一步，包括有朝一日进入真实世界”。

Google DeepMind 已经产出了大量研究。它从多个方向推动了世界模型和具身 AI 的发展：提出了 VLA 这个术语，发布了 Genie 3，开发了 SIMA 2。它训练 AlphaGo 的方式，也就是让 Agent 一遍又一遍地和自己对弈，至今仍在影响世界模型的训练方式。

General Intuition——从动作和世界模型出发的通用 Agent。

和 Google DeepMind 类似，我们也相信，通用 Agent 会在具身系统中扮演重要角色，让机器真正做有用的事情。

路径可以概括为：先创造梦境，再让 Agent 在其中奔跑。让它们玩耍、犯错、学习、获胜。随后，把这些学习迁移到其他梦境中，甚至迁移到真实世界。

回到《黑客帝国》的例子。当 Neo 需要学习功夫时，他接入了一个虚拟道场，在那里和 Morpheus 对练。这个训练环境比“真实世界”更适合学习。训练结束后，他说：“我会功夫了。”

世界模型就是那个虚拟道场。Neo 就是 Agent。这正是 Ha 和 Schmidhuber 8 年前提出的问题：Agent 能在自己的梦中学习吗？

在很短时间内，这个领域已经给出了答案：可以。但前提是，你拥有带动作标签的数据，或者能够获得它。

今天，我想多讲一点 General Intuition 的方法，以及我们已经开始看到的一些结果。

到目前为止，前面写到的每一种路线，最终都会撞上同一堵墙：它们需要更好的数据。视频很多，但缺少深度。视频没有动作标签。如果不知道是什么动作导致了我们看到的结果，视频数据就像影子，像柏拉图洞穴墙上的那些影子。

Yann LeCun 也许是对的：动作可以被推断出来。但任何使用推断动作的人，都必须面对另一套扩展定律，也就是推断动作本身的扩展定律。

推断动作会消耗算力、时间和注意力，而这些资源本可以用来做那些“理解动作之后才能做的事”。推断动作在基准测试上也许看起来不错，但一旦遇到边缘案例，就会很吃力。

即便推断得很好，推断动作也只是对某个人真实动作的近似。有些东西在视频里根本看不见。比如从驾驶舱视角看飞机降落时，你无法看到飞行员是否移动了方向舵。

提示一下：如果你不移动它，飞机会坠毁，这就是为什么真实标签如此关键。

你必须找到一种方法，获得带动作标签的数据。越接近真实标签越好。

幸运的是，多亏 Medal，我们有了一个很好的起点。

在 General Intuition 之前，是 Medal

前面讲过，游戏在 AI 发展中很重要。AlphaGo、深蓝，都是有意把游戏用于 AI 的例子。

但游戏和 AI 之间，还有一条更丰富的偶然联系史。很多时候，关键进展来自意外的好运。

你最可能熟悉的例子是 Nvidia。Jensen Huang 在 1993 年创办 Nvidia，最初是为了给游戏制作实时图形芯片。6 年后，1999 年，Nvidia 发布了第一块“图形处理单元”（GPU），GeForce 256。

几年后，大约 2005 年，研究者开始尝试把 GPU 用于神经网络。2007 年，Nvidia 发布 CUDA，让在 GPU 上做机器学习变得可行。2009 年，斯坦福的 3 位研究者 Rajat Raina、Anand Madhaven 和 Andrew Ng 证明，GPU 可以把深度学习中的无监督学习加速 70 到 100 倍。

3 年后，2012 年，AlexNet 团队用 GPU 在 ImageNet 竞赛中碾压对手。一年之内，深度学习领域几乎所有人都转向 GPU。当时，“深度学习领域所有人”仍然只是一个很小的群体，但在那之前，比特币矿工已经开始使用 GPU。对比特币的 SHA-256 哈希计算来说，GPU 比 CPU 高效 50 到 100 倍。

后来，比特币矿工很快转向 ASIC。但 2015 年，Vitalik Buterin 和团队发布以太坊。以太坊的工作负载更依赖内存，没那么容易用 ASIC 优化，于是从 2015 年起，以太坊挖矿主要依赖 GPU，并在 2020 年到 2022 年的加密货币热潮中制造了 GPU 短缺。

直到以太坊从工作量证明转向权益证明，市场上留下了一批过剩 GPU。加密货币最终还是崩盘了。就在加密市场见顶的同一个月，Nvidia 股价也见顶，并在随后一年下跌 66%。直到 OpenAI 发布 ChatGPT。此后，Nvidia 市值增长了 10 倍，成为今天这个 4.4 万亿美元的巨头。

谁能提前预测到这一切？

我 13 岁时自学逆向工程，并学会写代码，目的是搭建一个私人 RuneScape 服务器。当时我也没想到，这会把我带到今天的位置。逆向工程是推理能力的一种极致形式。小时候花很多时间做这件事，对大脑很有帮助。它也很适合训练一个人在快速变化的世界中理解复杂系统。

RuneScape 的开发者移除了游戏里的荒野和自由交易功能。我想把它们加回来，于是学会了逆向工程。后来，这件事发展成了一门对青少年来说很不错的生意。到 2015 年，我 18 岁，不得不关闭它时，我们每年大约能赚 150 万美元。原因是我成年后，要为自己搭建的东西承担法律责任。

但对我那个年纪来说，我已经赚到了足够多的钱，可以去做自己真正感兴趣的事情。19 岁时，我加入无国界医生组织（MSF），在那里待了 3 年，从事埃博拉和人道主义地图相关工作。之后，我在 Google Crisis Response 工作过一段时间。后来，对游戏的兴趣又回来了。

当时我们在伦敦办公，离 DeepMind 团队很近。那是 2014 年，我并不觉得他们做的事情多有意思，也不觉得它很可能成功。现在回头看，Demis 的远见值得极大尊重。很少有人理解，他们走到今天有多难。

2018 年，我和之前一起搭建 RuneScape 服务器的同事重新合作，做了一款叫 Get Wrecked 的游戏。它获得了很多注册用户，但玩家很快流失。原因是我们没有足够的玩家流动性。那是一款竞技游戏，需要有足够多、不同水平的玩家同时在线，才能让每个人都匹配到水平相近的对手。这件事启动起来非常难。

为了解决这个问题，我们做了一个功能，让用户可以在平台上观看游戏片段。每天几次，我们会发推送提醒大家游戏开服了，希望能在同一时间聚集足够多玩家。

后来，这个游戏片段平台 Medal 在 Rocket League subreddit 上爆了。下载量增长得太快，我们几乎立刻意识到，这才是更大的机会。于是，我们决定专注做 Medal。

那款游戏最终没有发布。Medal 则一路增长。今天，全球玩家每年会向 Medal 上传超过 10 亿个游戏片段。

如果有意识地设计一个用于构建世界模型和策略的数据集，我们也很难设计得比这更好。

Medal 的上传规模已经可以和 YouTube 相比。玩家每天上传数百万个片段，覆盖数万个环境，而且这些片段已经由玩家自己筛选过：他们上传的是自己认为值得分享的内容，比如最佳表现、最离奇的遭遇、最惊险的瞬间。

Medal 数据有 YouTube 数据没有的东西。首先，它带有来自社交网络的元数据，比如浏览量、点赞和评论。更重要的是，它带有游戏内动作。我们只在本地机器上记录游戏动作，而且只存储游戏内动作名称，比如“前进”，不会存储实际按下了哪个键。

这不只是数据问题。它还让我们做出了 Medal 用户最需要的功能之一：键盘和手柄操作叠层。通过这些叠层，玩家可以展示每一个精彩瞬间背后，自己究竟做了哪些精确操作。

每个片段都同时包含玩家实际看到的内容，以及随后发生的精确玩家动作。而这些动作使用的许多系统，和我们今天控制机器人的系统是相通的。

游戏画面还有另一个好处：信息是完整的。真实世界视频不同，你必须考虑姿态估计，也就是估计人类当时看到了什么；这个过程本身就是有损的。在真实世界里，人可能看到了摄像头没有拍到的东西。但在游戏里不会。录下来是什么，玩家看到的就是什么。我们认为，这让游戏数据成为更好的训练材料。

这给了我们数万亿个例子，展示玩家如何运行“观察、预测、行动”这个循环。这是智能的基础，而且整个过程中没有信息损失。

关于数据

要理解我们在做什么，首先要区分游戏数据和合成数据。

很多混乱来自一个误解：人们常把“数字的”等同于“合成的”。但真正的区别，不在于数据生成于什么环境，而在于数据本身是什么。

物理世界中也可以产生合成数据，也就是生成出来的数据。比如 Boston Dynamics 和其他机器人公司，会在人工搭建的环境中训练机器人。反过来，数字世界中也可以有人类真实标签数据。

我们的游戏数据之所以是“数字环境中的人类真实标签数据”，是因为它捕捉到的是真实人类在“观察、预测、行动”循环中的反应。

最接近我们方法的类比，是 GitHub 数据。GitHub 捕捉了人类工程师写代码的历史，并被用来训练出比人类更会写代码的机器。问题是，同样的想法能不能在计算机之外成立。

我们相信，并且已经看到一些迹象：从游戏数据中学到的东西，可以迁移到物理世界。

事实证明，游戏是学习智能的理想训练场。游戏包含成千上万个模拟世界，里面有物理、策略、合作、文本、界面使用、竞争，以及长时间跨度规划。它们复杂到需要直觉，又足够结构化，可以在大规模上学习。

仅靠物理世界数据，无法达到学习通用智能所需的多样性和规模。大语言模型则缺少关于动态和原子的真实数据。游戏刚好处在中间，成为数字世界的比特和物理世界的原子之间的一座桥。

当然，“真实标签”这条路线也面临一个挑战。前面提到过 Yann LeCun 的观点：如果你足够擅长推断动作，那么每一段视频都可以变成带动作标签的数据。

长期来看，这也许是对的。但在今天，它大概率极其不实用。这也是 Yann 让人佩服的地方：几乎没有别人会这样思考问题。去年 12 月，我和 Yann 在巴黎聊过这个困境，如果你想继续深入，可以去看那次讨论。

归根结底，一切都是权衡。

未来最优路径，很可能位于两端之间：一端是今天 VLA 所在的位置，最实用但最不优雅；另一端是 AMI 未来可能抵达的位置，如果一切进展顺利的话。最终，关键还是你如何看待数据。

对任何想解决具身 AI 的公司来说，数据都是核心问题。Evan 和 Packy 在《机器人的许多小步》（Many Small Steps for Robots）中写过这一点，这也是 General Intuition 目前最关注的事情。

我们相信，我们的数据集是通用模型数据问题最优雅的答案。它为一种熟悉的通用智能铺出路径：就像特斯拉 FSD 给人的感觉像一个熟悉的司机，但这条路径的规模会远远超出游戏或驾驶。

对于通用模型，也就是那些能够在几乎任何可想象真实场景中，直觉式、自发式驱动具身 AI 的模型来说，问题不只是你能拿到多少数据。

在把更多数据扔给问题之前，你必须先理解自己的迁移曲线。

小步、大跃和迁移曲线

在之前那篇机器人文章里，Packy 和 Evan 写过，构建具备经济可行性的具身 AI，有两种方法：小步，或者大跃。

Evan 和他的公司 Standard Bots 走的是“小步”路线：在真实场景中边部署、边学习，一个用例一个用例推进，而且客户会为这些部署付费。他们正在越来越多有经济价值的用例中收集真实世界数据，覆盖许多不同领域。

这个策略很有意思。Standard Bots 让来自不同行业、不同任务的客户为机器人部署付费，由此收集覆盖广泛分布的真实世界数据。它并不是希望在一个狭窄领域里堆更多数据，然后期待模型自然泛化到分布外任务；它的目标是在真实世界中横向铺开，把大量有用任务都纳入分布内，而不是在一个细分场景里纵向挖深。

General Intuition 和 Standard Bots 是从光谱两端切入同一个问题。

General Intuition 试图从数字侧解决泛化：我们的赌注是，游戏数据会带来关于物理和动作的广泛先验。Standard Bots 则试图从物理侧解决泛化：它的赌注是，真实世界部署会带来关于操作和工业任务的广泛先验。

面对数据多样性问题，这两条路线其实是互补的。General Intuition 的世界模型，有可能成为 Standard Bots 后训练的起点。我们提供一个在数字环境观察数据上训练出来的基础模型，这类数据可以规模化、低成本收集；Standard Bots 再用自己有偿收集到的特定用例数据进行后训练，把这些用例拉进分布内，更快达到多个 9 的可靠性。

我们认为更有挑战的，是一些通用模型路线似乎正在采取的方法：收集大量数据，然后希望模型自然泛化到分布外任务。但通用模型需要覆盖太多场景、太多情况，无法全部靠付费让人演示任务来收集。

此外，同一领域里的更多数据，并不会自动教会模型处理从未见过的情况。在预训练阶段，并不是所有数据都同样有价值。我还没有见过哪位构建通用机器人模型的人，能拿出扩展定律证明：只要继续加数据，就能解决分布外用例，也就是训练中没有出现过的那些情况。一个狭窄领域里的更多数据，不会自动买来对新领域的泛化能力。这样的扩展定律并不存在。

据我们目前理解，有三条不同的迁移曲线，会决定世界模型能否泛化到新的物理环境。它们目前还没有被充分理解，我们也只是刚开始理解。但至少可以先给它们命名：输入模态迁移、传感器迁移和环境迁移。

第一条是输入模态迁移：一个策略能在多大程度上，跨越被控制物理系统的不同自由度进行泛化？

对于一个拥有 20 到 60 个自由度的人形机器人来说，这条曲线非常陡。每个自由度都是连续的，而且常常在机械结构上彼此依赖。手指运动并不独立于手臂运动。因此，如果你用游戏手柄训练模型，却期待它能干净地迁移到一只 20 自由度的人形手上，从研究角度看，这就是一个缺少扩展定律支撑的赌注。

第二条是传感器迁移：如果工作负载需要专门的物理传感器，比如触觉反馈、本体感受、深度信息，那么在模型能够可靠推理这些传感器数据之前，你需要多少这种传感器专用数据？这背后也有一条独立的扩展规律。

特斯拉明确处理过这个问题。它花了很多年弄清楚，在完全放弃 LiDAR 传感器之前，到底需要多少 LiDAR 数据。多数机器人公司也在隐式处理这个问题，只是希望答案能在部署过程中自己浮现出来。

第三条是环境迁移：当环境变得更复杂、更随机、或者有更多人参与时，模型表现会如何下降？

在一个身边有 1,000 个人的体育场里预测正确动作，和在一片空旷场地上预测正确动作，根本不是同一个难度的问题。

正如前面解释过的，复杂度不是线性增长的。

这三条曲线会相互作用。在你能画出它们之前，就无法知道自己到底需要多少、哪种类型的数据。也就无法证明，大规模投入资本去收集这些数据是合理的。

今天有些公司正在收集 10 万小时物理世界数据。它们未来可能会发现，一个好的世界模型其实只需要 1 万小时；也可能会发现，10 万小时确实需要，但其中 9 万小时完全落在了错误分布里。

我们的赌注，当然也和我们的起点有关，是把这个问题压缩到更可处理的范围。

通过聚焦游戏控制器输入，我们把输入模态迁移简化成了一条已经解决的曲线。我们知道自己有足够多的游戏控制器数据，因为我们拥有数十亿个人类使用控制器的游戏片段。这消除了一个未知数。

通过聚焦基于视觉的输入，而不是专用传感器，我们又消除了第二个未知数。

几乎每个物理系统都有一种类似游戏控制器的输入模态，包括方向盘、键盘鼠标，以及真正的游戏手柄。大多数都很直接。即便人形机器人通常也配有这类接口。挑战只在于，如果自由度超过控制器能够表达的范围，迁移效果就会变差。因此，人形机器人在我们的路线图中更靠后。但我们看不到任何物理限制，说明不能围绕接口限制来构建系统。

简而言之：如果你可以用游戏控制器控制几乎任何物理系统，而我们又拥有世界上最多的“玩家使用控制器采取行动后会发生什么”的数据，那么我们的 Agent 理论上就应该能够控制几乎任何物理系统。

剩下的唯一问题，是环境迁移：在梦中训练出来的 Agent，能不能在现实中工作？

世界模型的超人类未来

过去几周，General Intuition 在纽约和日内瓦的办公室里发生了很多让人兴奋的事。

本文前面写到的许多东西，实际效果都比我们预期更好。和其他人一样，我们越来越相信：在梦中训练出来的 Agent，可以在现实中行动。

为什么世界模型能够迁移？

“观察、预测、行动”这个循环，本质上是对因果结构系统如何运作的一种抽象。一旦一个世界模型通过多样化的游戏，看到了 N 种世界变体，那么它只需要少量微调，就有可能理解第 N+1 种变体的动态，而这个变体就可能对应真实世界。

世界模型学习的是现实中的因果关系。如果这种因果关系能在足够基础的层面被理解，世界模型就应该能够泛化到新场景。

这会意味着什么？能够泛化的世界模型，会带来什么影响？

我们的目标，是让具身 AI 理解世界，让我们的模型能够在任何环境中控制机器，包括真实世界。我们希望为机器人带来一个突破时刻：进展突然变得显而易见，模型也变得足够好用。

这个突破不会像大语言模型的突破那样发生。大语言模型之所以走向主流，是因为它们开始像人类一样和我们对话。但我们并不希望机器只是做人类已经会做的事。机器真正的意义，是去做人类做不到的事，给我们新的能力。

机器人不需要长得像人，才能为人工作。人形机器人之所以被视为一种重要形态，很大程度上是基于一个假设：互联网上有大量人类视频，因此人形机器人拥有最多可学习的数据。毕竟，人类拍下的视频里，最多的就是人类自己。