世界模型最新综述！中科院联合MBZ、NTU、Oxford系统梳理前沿进展|世界模型|中科院|新论文|智能体

从视频生成、机器人控制，到自动驾驶、GUI 智能体，再到科学发现，世界模型正在成为 AI 迈向「会想、会推演、会规划」的关键路线。它不再只是「看懂当下」，而是试图让模型学会在内部模拟世界如何演化，从而支持预测、规划与决策。

近日，中国科学院沈阳自动化研究所联合 MBZ、NTU，与陶大程、Ming-Hsuan Yang 以及 Philip Torr 等顶尖学者合作，系统梳理了世界模型建模范式、方法、关键功能，以及它们的关系，并且从更广阔的角度总结了现有主要 WMs 及其核心数学公式的关键进化发展。同时，本文提供了一个更全面、完整的基准数据集、评估指标、模拟平台和跨模型的性能对比。调研的最新进展截止至 2026 年 1 月。

摘要世界模型的核心目标，是通过学习环境状态与观测的演化规律，构建一个能够进行未来预测、内部仿真、规划搜索和行动决策的模型框架。与很多只聚焦单一场景或单一方法路线的文章不同，这篇综述从整体视角系统回顾了 AI 中世界模型的发展，并将现有方法归纳为四大分支：观测层生成式世界模型、潜空间世界模型、强化学习驱动的世界模型，以及对象中心世界模型。

在此基础上，论文进一步梳理了世界模型在机器人、自动驾驶、科学发现、虚拟游戏仿真、GUI 智能体，以及可解释性与可信性等领域的应用。同时还总结了基准数据集、评测指标、物理引擎与仿真平台，以及不同方法间的性能对比。最后，论文讨论了世界模型走向更通用智能所面临的关键障碍，包括长期时序一致性、因果推理、物理与语义约束、泛化与可扩展性等问题。

论文题目：Learning to Model the World: A Survey of World Models in Artificial Intelligence
项目地址：
https://github.com/JiahuaDong/Awesome-World-Models
论文地址：
https://www.techrxiv.org/doi/full/10.36227/techrxiv.177274570.09578608/v1

1. 研究动机

随着视频生成、多模态基础模型和大规模训练的发展，世界模型正在重新成为构建通用智能系统的重要路线。

近几年，世界模型相关研究迅速扩张，但对世界模型的讨论分散在视频生成、机器人学习、自动驾驶、强化学习、对象表示学习等不同社区中，技术路线和评测协议也并不统一。

世界模型天然连接感知、推理、控制与行动，是走向更高层次智能系统的一条重要范式。

2. 这篇综述的特色，

以及与以往世界模型综述有什么区别？

系统拆解世界模型：已有综述大多要么只讨论某个具体应用领域，比如自动驾驶、3D/4D 建模、视频生成、安全或具身智能；要么停留在世界模型的基础定义和一般性介绍层面。相比之下，本文从建模范式、数学形式、关键功能出发，对世界模型进行了更系统的分析。

清晰的技术分类以及数学化的建模：对现有世界模型进行了清晰的技术分类，将现有范式分为观测层生成式世界模型、潜空间世界模型、强化学习驱动世界模型以及对象中心世界模型，并对世界建模范式、方法、关键功能以及预期的世界模型进行了深入和系统的概述。

内容覆盖全面：除了四类基础世界模型与对未来世界模型的讨论，本文还系统回顾了世界模型在多个应用场景中的进展，包括机器人、自动驾驶、科学发现、虚拟游戏仿真、GUI-based agents，以及可解释与可信世界模型；同时总结了 benchmark 数据集、评测指标、物理引擎和仿真平台，以及不同方法的实验对比。

图 1.基础世界模型的发展时间表

3. 基础世界模型

本文从统一建模视角出发，将世界模型理解为一种利用历史状态、动作与观测来预测未来环境状态的函数，并将其核心作用放在仿真、规划与决策这一连续链条中加以讨论。

在这一框架下，论文没有简单按应用领域或代表工作展开罗列，而是围绕「如何表示世界、如何建模演化、如何支持行动」对基础世界模型进行系统划分。这样的章节安排不仅突出了不同范式各自关注的能力重点，也为后续应用分析、评测比较和未来方向讨论建立了统一的分析基础。

表 1.基础世界模型的主要关注点和建模范式比较

图 2.世界模型的基础功能及其内部关系

观测层生成式世界模型

直接在观测层面建模未来世界的路线，将世界模型与图像、视频、语言以及更高维场景生成紧密联系起来。观测层生成式世界模型能够直接生成未来观测结果，因此在仿真表现和结果呈现上具有鲜明优势，也构成了当前世界模型研究中最直观、最具生成色彩的一类基础范式。

潜空间世界模型

相较于直接重建未来观测，这一路线更强调内部表征、动态推演与高效预测。它在世界模型研究中提供了另一种更偏「抽象建模」的视角，也体现出从表层生成走向内部机制建模的研究趋势。先压缩到高维潜表示，再在潜空间中建模环境动态，更强调高效预测与规划。

强化学习驱动的世界模型

通过引入动态建模与奖励建模，使世界模型不再停留于「预测未来」，而是能够在 imagined rollouts 的基础上参与策略优化与行动选择。由此，这一范式体现了世界模型与智能体决策闭环之间的联系。

对象中心的世界模型

强调以对象为基本单位来组织和理解环境，把复杂场景表示为一组可交互、可组合的对象结构，在可解释性、组合泛化与结构建模方面呈现出更鲜明的研究价值。

预期的世界模型世界模型

不仅需要其内部从当前仅依赖观测数据的「黑盒式」预测，转向基于符号化方程、具备因果可验证性且能持续更新的科学理论架构。表 2 清晰地对比了未来的世界模型与现有世界模型的区别。

表 2.未来与现有世界模型的范式比较

4. 世界模型的应用场景

本文将世界模型的应用系统地扩展到多个重要方向，不仅覆盖机器人、自动驾驶和科学发现，还纳入了虚拟游戏模拟、GUI 智能体，以及可解释性与可信性分析，体现出世界模型正从单一任务建模走向更广泛的通用智能场景。

机器人

本文将世界模型视为连接感知、预测、推理与行动的核心中枢，并从操作、导航、策略学习和运动控制四个方向展开，强调其在部分可观测、强物理交互环境中的基础作用。机器人操作中的世界模型不只是感知模块的补充，而是直接参与控制闭环的关键组成部分。论文从控制——感知循环的角度重新组织这一方向，突出世界模型在动作想象、规划搜索、统一动作建模和未来观测预测中的不同角色。另外，从导航——推理循环出发，概括了世界模型如何支持前瞻式想象、记忆建模、神经符号推理、测试时适应以及基于信念的建模，从而帮助机器人在动态环境中实现更稳健的长期导航。

表 3.用于机器人操作的世界模型分类

表 4.用于机器人导航的世界模型分类

自动驾驶

本文从「世界模型如何进入驾驶决策闭环」的角度重新梳理自动驾驶中的相关研究，将其概括为连接交通场景建模、行为推演与行动选择的关键模块，并从预测建模、动作条件想象和决策中心集成三个方向展开，强调其在不确定交通环境中对未来场景预判和规划决策的支撑作用。其中，预测建模将世界模型视为环境演化预测器，突出其在场景动态学习、预训练和数据生成中的基础价值；动作条件想象则进一步让模型根据候选动作或高层意图推演不同未来结果，从而支持反事实分析和行为比较；而决策中心集成则把世界模型直接嵌入规划与策略学习过程，使其从被动预测器转变为闭环自动驾驶中的主动决策。

表 5.用于自动驾驶的世界模型分类

图 3.用于科学 (a)、虚拟游戏模拟 (b) 和基于 GUI 的智能体 (c) 的世界模型分类

科学发现

本文将世界模型在科学中的应用概括为从「面向交互的环境模拟」进一步走向「面向复杂系统的数据驱动科学建模」，并从社会科学与社会经济系统、物理与自然科学两个方向展开，强调其在部分可观测系统中进行长期预测、模拟推演和不确定性分析的潜力。其中，社会科学与社会经济系统部分主要体现世界模型对群体行为模拟和政策评估的支持作用，而物理与自然科学部分则更突出其作为受物理约束的模拟器，在长期预测、规划与科学发现中的价值。整体来看，这一部分展示了世界模型正在从智能体控制工具扩展为更广义的科学建模框架，但同时也面临数据偏差、可验证性、物理保真度和跨训练分布泛化等挑战。

虚拟游戏模拟

虚拟游戏模拟作为世界模型最自然也最经典的应用场景之一，本文从 2D 像素级观测预测和 3D 网格级观测预测两个方向展开，体现出游戏世界模型从画面级未来生成逐步走向具备几何结构、交互能力与语义一致性的虚拟世界构建。在 2D 路线中，本文强调当前主流方法仍以像素层面的未来观测预测为核心，但其目标已经从早期偏任务导向的游戏模拟，逐渐转向更通用、更生成式的交互世界建模；而在 3D 路线中，研究重点进一步转向显式几何表示和可探索空间生成，使世界模型能够支撑更具物理 grounding 和空间一致性的虚拟环境。

GUI 智能体

本文认为，世界模型能够显著增强 GUI 智能体的多步决策能力，因为它使智能体可以在执行前先对界面变化进行内部模拟，从而完成前瞻规划、方案比较与错误修正。围绕这一点，论文将 GUI 智能体划分为 Web agents 与操作系统/桌面 agents 两类：前者面对大状态空间和延迟反馈，更强调基于内部 rollouts 的搜索、推理与多步执行优化；后者则更突出把世界模型作为系统级内部模拟器，以支持不经真实执行的预判、规划和设备控制。整体来看，这一部分强调了 GUI 场景中视觉与符号动态共同作用的特殊性，也说明世界模型正在成为界面智能体实现长期决策的重要基础。

可解释与可信的世界模型

本文在应用部分的最后，将世界模型的讨论从性能与功能进一步推进到内部机制与可靠性层面，并从可解释性与面向安全的可信性两个方向展开，强调世界模型不仅要「预测得准」，还要具备能够支撑长期泛化的结构化内部表征，以及在关键任务中保持稳定可靠的安全保证。其中，可解释性方向主要关注模型内部是否真正形成了可用于长期推理和开放世界泛化的因果性世界表征，而不是依赖表面相关性获取预测优势；面向安全的可信性方向则强调，即便模型规模扩大可以提升稳定性，它们仍可能在分布偏移、对抗扰动和部分可观测条件下出现失效。整体上，这一部分揭示了世界模型在预测精度、因果真实性、可解释性与可扩展性之间的核心张力。

5. 基准

很多综述只做文献罗列，但这篇文章还专门梳理了预训练视频基准、下游任务 benchmark、面向世界模型的一般性评测指标、物理引擎与仿真平台，以及不同世界模型之间的性能比较。作者尤其强调，未来评测不应只看短期预测误差，还应纳入泛化能力、因果推理能力和长期一致性等更贴近世界模型本质的指标。