1943 年,29 岁的苏格兰心理学家 Kenneth Craik 出版了一本不到 200 页的小书《The Nature of Explanation》。彼时二战尚未结束,数字计算机尚未诞生,但 Craik 在书中提出了一个惊人的假说:人类思维的核心机制,不是“心灵”、不是“自我”、不是“感觉材料”,而是一种符号化的建模过程。大脑在内部构建了外部现实的“小尺度模型”(small-scale model),用它来替代真实世界的试错。
他在这本书里写下了这段被后人反复引用的话:
如果一个有机体能在脑中携带一个外部现实及其自身可能行动的“小尺度模型”,它就能试验各种备选方案,从中选出最优解,在未来情境到来之前就做出反应,利用过去事件的知识来应对当下和未来,以一种更充分、更安全、更胜任的方式来回应它所面临的一切紧急状况。
Craik 进一步拆解了这个过程的三个步骤:
1. 将外部过程翻译为内部表征(感知)
2. 从这些表征中推导出新的符号(推理/预测)
3. 将推导结果重新翻译为行动(决策/控制)
感知、预测、行动。这三个词,恰好是 80 年后每一个世界模型系统试图闭合的环路。
但 Craik 没有等到自己的思想开花结果。1945 年 5 月 7 日,他在剑桥国王大道骑自行车时被一辆汽车撞倒;次日,也就是欧洲胜利日,在医院去世,年仅 31 岁。他甚至没来得及知道,爱因斯坦读过他的书后评价了一句“伟大的著作”,而沃伦·麦卡洛克(Warren McCulloch)将在此后数十年反复传述这个评价。
Craik 死后,他的思想却在控制论、认知科学和人工智能的三条支流中持续扩散。1949 年,英国控制论俱乐部“Ratio Club”成立时,创始人 John Bates 专门为 Craik 的缺席表达遗憾,认为如果他还活着,一定是最核心的成员。
1956 年,在被视为 AI 诞生标志的达特茅斯研讨会上,Nathaniel Rochester 在提案文件中引用了《The Nature of Explanation》中关于学习的模型。1983 年,Philip Johnson-Laird 出版《Mental Models》,将 Craik 的框架正式纳入认知科学的主流范式。
然后便是漫长的沉寂。1991 年,Rodney Brooks 发表了影响深远的论文“Intelligence without Representation”,主张智能行为可以不需要内部世界模型,只靠与环境的直接反应式交互就能涌现。这条路线催生了行为主义机器人学,也让“世界模型”这个概念在 AI 主流中沉寂了将近二十年,直到 2018 年。
从梦境中醒来
2018 年,Google Brain 的 David Ha 和瑞士人工智能实验室 IDSIA 的 Jürgen Schmidhuber(LSTM 的发明者之一)发表了一篇名字直截了当的论文:《World Models》。
这篇论文的核心思想并不复杂:给 AI 一个“做梦”的能力。
他们设计了一个三组件架构:
- V(视觉模型):一个变分自编码器(VAE),把高维的像素画面压缩成低维的潜在表征,相当于大脑把视觉信息压缩成抽象概念
- M(记忆模型):一个混合密度网络-循环神经网络(MDN-RNN),基于历史观测和动作预测下一步的潜在状态,相当于对“接下来会发生什么”的想象
- C(控制器):一个极其简单的线性模型,在 V 和 M 构建的压缩世界表征上做决策
关键突破不在架构本身,而在训练方式:智能体可以完全在自己“幻想出的梦境”中学习策略,然后迁移到真实环境中。Ha 和 Schmidhuber 在赛车游戏 VizDoom 上验证了这个想法:智能体先在 M 生成的“梦境赛道”中学会开车,然后直接在真实游戏中跑出了不错的成绩。
其实早在 1990 年,Schmidhuber 就提出了预测性神经架构,允许智能体在内部模拟环境动态并在毫秒级别内完成规划。但 2018 年这篇论文的贡献在于,它把三十年的工作蒸馏成了一个干净、可复现的框架,并且给了这个概念一个名字:World Models。
从那以后,这个领域开始加速。
Richard Sutton 早在 1990 年代提出的 Dyna 架构(用学习到的世界模型来预测未来结果并规划行动)成为了重要的理论桥梁。随后,Dreamer 系列(2020—2023)、MuZero(2020)、EfficientZero(2021)等基于模型的强化学习(Reinforcement Learning,RL)系统相继证明,在游戏领域,学习一个世界模型再用它来训练策略,可以匹配甚至超越直接与环境交互的无模型方法。
到了 2024—2025 年,世界模型从一个 RL 子领域的技术概念,演变成了一场更宏大的范式转移。2025 年发表在 ACM Computing Surveys 上的综述论文(清华大学团队)将世界模型的功能划分为两大类:理解型(构建世界运作机制的隐式表征)和预测型(模拟未来状态以指导决策)。
另一篇 2026 年的综述(arXiv:2604.22748)则提出了三级能力层级:L1 预测器(局部单步预测)→ L2 模拟器(多步可决策的仿真,需要长程一致性)→ L3 演化器(基于证据的自我修正)。
而在这个技术演进的每一个关键节点上,都有一个共同的身影:游戏。
为什么是游戏?
如果你要训练一个理解世界运作方式的 AI,你会选择什么样的训练环境?
理想的训练场应该满足几个条件:环境复杂但边界可控;失败成本为零,可以无限试错;每一步行动都有即时反馈;数据量近乎无限,这些特点几乎完美对应着电子游戏。
ACM Computing Surveys 2025 年那篇综述概括了这一点:游戏环境代表了世界模型研究的理想实验台,它提供了受控但复杂的领域,要求对物理、因果关系和交互动力学有精深的理解。
但这不只是学术上的“理想”,游戏作为训练场的优势是非常明确的:
第一,数据天然带标注。每一帧游戏画面都对应着玩家的操作输入(向左、跳跃、开火),形成了完美的 observation-action pair。训练一个自动驾驶的世界模型,你需要昂贵的传感器阵列、精密的标注团队和漫长的道路测试。训练一个游戏世界模型,数据自己就跑出来了。Google DeepMind 训练 Genie 时用了超过 20 万小时的公开互联网游戏视频,精选后得到 680 万个 16 秒片段。这些数据不需要任何人工标注,因为游戏本身就是最好的标注器。
第二,物理规则是显式的。游戏有重力,有碰撞检测,有流体模拟。一个游戏世界模型学到的“球会下落”“墙会挡住路”“水会流动”,和物理世界中的同类现象共享深层的因果结构。当然,游戏物理是简化的(否则它跑不到 60 帧),但这种简化恰好提供了一个课程学习(curriculum learning)的起点:先在简单物理中学会基本规则,再逐步迁移到更复杂的真实世界。
第三,规模惊人且还在增长。Steam 上有超过 10 万款游戏。全球每天有数以亿计的游戏进行中。游戏录屏平台 Medal.tv 每年从 1,000 万用户那里收集超过 20 亿条游戏片段。这个数据量级是自动驾驶或机器人领域望尘莫及的。
第四,也是最容易被忽视的:游戏已经预定义了一套压缩良好的动作空间。手柄有十几个按键和两个摇杆,键鼠组合略多但也有限。几十年来,游戏设计师和玩家共同迭代出了一套将人类意图压缩成离散/连续动作信号的通用接口。这个特性的意义,我们留到最后一章再展开。
当然,这种关系是双向的。
游戏不只是世界模型的训练场,游戏本身也需要世界模型。传统游戏引擎靠手工编写的物理规则和脚本化的 NPC 行为树运转,天花板肉眼可见:NPC 永远在固定路线巡逻,物理引擎永远按预设参数计算,每一个交互可能性都需要开发者提前想到并编码。如果世界模型能替代这些硬编码的规则,让 NPC“理解”情境而非执行脚本,让物理“涌现”而非计算,那游戏体验的上限将被根本性地改写。
这就是为什么,当世界模型在 2024 年开始从论文走向可运行的原型时,游戏成了第一个也是最密集的试验场。
神经网络玩 DOOM:从论文到可玩原型
2024 年是世界模型从概念验证跨入可交互原型的分水岭,几个标志性系统集中出现,每一个都选择了游戏作为证明自己的舞台。
其中最具代表性的一个案例是 Google Research 的 GameNGen。这个团队做了一件极具象征意义的事:用一个神经网络完全替代了 DOOM(1993)的游戏引擎。GameNGen 能以 20 帧/秒的速度实时生成 DOOM 的画面,玩家按下方向键,模型预测下一帧应该长什么样。没有传统的渲染管线,没有光线追踪,没有碰撞检测算法。怪物的移动、子弹的轨迹、门的开关,全部编码在神经网络的参数中。
DOOM 是 1993 年的游戏,物理规则简单到可以用几百行代码描述,画面在今天看来非常粗糙。但即便如此,让一个神经网络完整地“理解”这个世界的运作方式并实时生成一致的视觉输出,仍然是一个真正的技术突破。它证明了一个原理:游戏引擎的逻辑可以被学习,而不必被编程。当然,局限也很明显:它只能运行 30 年前的 DOOM,记忆窗口仅有 3 秒,走出一个房间再回来,房间里的东西可能已经变了。
同年初发布的 Google DeepMind 的 Genie 系列则代表了另一条路线:不是在已有游戏中训练智能体,而是从视频中学习生成全新的可交互世界。后来李飞飞创办的 World Labs 也沿着相近的问题意识推进:不只是生成一段视频,而是生成一个具有空间结构、可以被进入和编辑的 3D 世界。
最初发布的 Genie 是一个 110 亿参数的模型,它首次实现了从无标签互联网视频中以无监督方式训练生成式交互环境。它的训练数据来自超过 20 万小时的公开游戏视频,最终精选出 680 万个 16 秒片段。给它一张图片,可以是照片、草图甚至文字描述,它就能生成一个可以用虚拟手柄操控的 2D 世界。
2024 年 12 月发布的 Genie 2 走得更远,它是一个自回归潜扩散模型,能从单张图片生成可操控的 3D 可玩环境。DeepMind 的官方博客列出了一系列在训练中涌现出的能力:物体交互、复杂角色动画、物理模拟、光照效果,其中最引人注目的是 NPC 行为建模。
模型不是被编程来生成 NPC 的行为,而是在大量游戏视频中“观察”到了 NPC 应该如何行动,然后在生成的世界中重现了类似的行为模式。DeepMind 将 Genie 2 定位为一个能提供“无限课程的新颖世界”的工具,用于 AI 智能体的训练和评估。但 Genie 2 生成的世界只能持续 10—20 秒,时间再长,一致性就开始崩塌。2025 年 8 月发布的 Genie 3 将这个窗口延长到了约一分钟,Waymo 甚至已经在用它做自动驾驶仿真。进步明显,但一分钟仍然不够。
入局者:游戏公司与游戏数据公司
尽管 2024 年的那些成果可能离“可用”还差得远,但有一件事已经被证明:世界模型可以从游戏视频里学会“世界如何回应动作”。这意味着游戏录像就不只是娱乐内容,而是一种训练数据,甚至可能是最好用的训练数据之一。
同一时期,具身智能开始迅速发展,四足机器人、人形机器人、自动驾驶都在找更好的训练数据和仿真环境,这两条线就此在 2025 年交汇了。世界模型需要大规模带动作标注的视频数据,具身智能需要世界模型来理解物理世界,而坐在这两个需求交叉点上的,是游戏公司和游戏数据公司,资本很快做出了反应。
最有代表性的一个样本是 General Intuition(GI)。2025 年 10 月,游戏录屏平台 Medal.tv 的创始人 Pim de Witte 据报拒绝了 OpenAI 高达 5 亿美元的收购要约,转而创立了这家公司,Khosla Ventures 和 General Catalyst 领投 1.34 亿美元种子轮。
八个月后 A 轮 3.2 亿美元到账,估值 23 亿美元,累计融资 4.54 亿美元。GI 的叙事足够有力也足够简洁:游戏数据是训练世界模型最好的预训练数据。Medal.tv 每年从 1,000 万用户那里收集超过 20 亿条游戏片段,每一条都带有完整的玩家操作记录:哪一帧按了什么键,摇杆偏向了哪个方向。De Witte 说:“我们把这看作预训练的下一阶段。”
GI 的演示包括了这样一个对比:同一个模型骨架,一边能连续打 100 小时类《堡垒之夜》的射击游戏,一边能用 8 分钟的街道视频数据驱动一个四足机器人行走。
Khosla 说世界模型的关键飞跃在于“直觉”的涌现,模型不是在执行规则,而是在“理解”世界应该如何运转。但需要注意的是:GI 目前最大的不确定性恰恰在于这个迁移故事。从游戏到机器人的迁移曲线到底有多陡,公司自己也没有公开的、经过同行评审的技术论文来回答。
KRAFTON(《绝地求生》的开发商)选择了一条更具象的路径。这家韩国游戏巨头在 2025 年宣布转型为“AI-first 公司”,投入约 1,000 亿韩元建设专用 GPU 集群,成立 AI 子公司 Ludo Robotics,随后在 2026 年 3 月与韩华航空航天签署合作备忘录,联合开发物理 AI 技术并计划成立合资企业。
KRAFTON 官方新闻稿提到:“KRAFTON 在运营大规模游戏数据和基于物理的虚拟世界方面积累的经验,是训练和验证物理 AI 软件的核心资产。”这几乎是一家游戏公司能给出的最明确的战略声明:我们的游戏能力就是 AI 能力。
虚拟世界中的物理模拟、大规模玩家行为数据、实时渲染和状态管理,这些在过去被视为“游戏技术”的东西,现在被重新定义为训练和验证物理 AI 的基础设施。韩华航空航天 CEO 的回应同样值得注意:“我们与 KRAFTON 的合作将在物理 AI 和未来防务领域提供新的范式标准。”从游戏到国防,中间只差一个世界模型。
除了上述这些公司之外,在这条赛道上,还有两个无法绕开的玩家:NVIDIA 和腾讯。
NVIDIA 延续着一贯的作风,它所做的不单单只是做一个世界模型,而是搭建了一层平台。Cosmos 被定位为“物理 AI 世界基础模型平台”,不是一个单一的世界模型,而是一套构建、训练和部署世界模型的基础设施。
NVIDIA 将世界模型定义为“世界的数字孪生”,核心应用锁定在机器人训练上。配合 Isaac Sim(基于游戏引擎技术的机器人仿真平台),NVIDIA 构建了一条从游戏引擎到世界模型到物理机器人的完整工具链。
值得注意的是,Cosmos 的主要采用方大多是具身智能公司,而非游戏公司。游戏引擎和游戏技术正在被重新包装为物理 AI 的训练基座,游戏公司积累了几十年的资产(实时渲染、物理模拟、大规模并发)正在获得超出娱乐产业的战略估值。
而腾讯作为全球营收最高的游戏公司,它同时握着三样稀缺输入:混元大模型体系(多模态 + 视频 + 3D 生成);AI 人才团队以及算力基础设施;以及全球游戏公司中最深的股权网络(100% 控股 Riot、Supercell、持有 Epic 约 40%、KRAFTON 约 13.5%、FromSoftware 约 16%,加上天美、光子等自研工作室和《元梦之心》这样的 UGC 平台)。
前面提到的“入局者”中,有好几个本身就有腾讯的身影。但腾讯的世界模型目前更偏“for human”(给开发者和创作者生成内容),还没有像 KRAFTON、GI、NVIDIA 那样把“用世界模型训机器人”当成明牌战略。会不会从内容侧跨到具身侧,是我们需要关注的重点。
这些案例指向同一个判断:谁掌握了让 AI 理解物理世界的能力,谁就掌握了下一个计算范式的入口。而在所有可能的训练路径中,游戏正在成为共识性的起点。
从虚拟到物理,机器不必像人
最后,让我们回到一个看似疯狂但逻辑自洽的设想。
当我们谈论“用游戏数据训练机器人”时,很容易陷入一个思维定式:机器人应该长成人形,像人一样行动,所以需要用人类的行为数据来训练。但这个思维定式忽略了一个更深层的事实:
手柄、方向盘、键盘鼠标,是人类几十年迭代出的“把意图压缩成通用动作信号”的接口。
一个游戏手柄有两个摇杆、十几个按键、两个扳机。用这套接口,玩家可以控制一个人形角色在《艾尔登法环》里翻滚、格挡、攻击;也可以控制一辆赛车在《GT 赛车》里过弯、加速、漂移;还可以控制一架直升机在《GTA》里起飞、悬停、降落。同一套动作空间,映射到了截然不同的物理系统上。
这意味着什么?意味着“人用手柄做了什么”的数据,本质上是一种与具体形态无关的意图-动作对。一个世界模型如果能从海量游戏录像中学会“人类意图如何映射到环境变化”,那它学到的不是“如何操控一个特定的角色”,而是“如何在一个动态系统中实现目标”。
这是 General Intuition 的核心赌注。也是把“游戏”和“机器人”两个看似不相干的领域焊死在一起的那一环。机器人不必长成人形,不必用两条腿走路。它只需要能把意图转化为动作,而这种转化能力,可以从几十亿条“人类通过手柄控制虚拟物理系统”的数据中学到。
从 Kenneth Craik 脑中的“小尺度模型”,到 Ha 和 Schmidhuber 让智能体在梦境中学习赛车,到 Google 的神经网络替代 DOOM 引擎,到 General Intuition 用游戏录像训练四足机器人,这条线之所以成立,不是因为某一个环节实现了突破,而是因为人类在过去 80 年里做的事,一直是同一件事:基于对世界的观察和经验,构建一个内部模型,用它来预测下一步会发生什么,然后行动。
Craik 在 1943 年就理解了这一点。他写道:“只有这种内部现实模型,这个工作模型,才能让我们预测物理世界中尚未发生的事件,这个过程节省了时间、成本,甚至生命。”
现在,同样的过程正在从碳基生命迁移到硅基系统。而这个迁移的练习场,因为数据的密度、交互的丰富性、物理规则的可控性和失败代价的可逆性,是游戏。
一个享年 31 岁的苏格兰心理学家在 1943 年洞察到的东西,在 80 年后正在被写成代码、训练成参数、部署到机器人身上。他没有来得及看到这一天,但他的那个“小尺度模型”,或许正在变成一个越来越大的世界。
参考资料:
1.https://arxiv.org/abs/1803.10122
2.https://dl.acm.org/doi/10.1145/3720473
3.https://arxiv.org/abs/2405.12399
4.https://techcrunch.com/2026/06/18/general-intuition-raises-320m-series-a/
5.https://naavik.co/deep-dives/hello-world-models
6.https://www.notboring.co/p/world-models
7.https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250923/
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
热门跟贴