最近越来越多的人问世界模型是什么。随着世界模型(WMs)在AI研究和应用领域的发展,与视觉语言动作(VLA)模型等其他主流方法有何不同。在这篇文章中,将分解WMs是什么,是什么让它们变得强大,以及为什么可能是物理智能和AGI的基础支柱。

本报告由势乘资本和光锥智能联合发布

什么是物理世界模型?

世界模型是一种学习如何模拟现实世界动态的的内部表征。与静态感知模型不同,世界模型是生成和预测的——可以模拟世界如何随着时间的推移而演变,允许智能Agent在实际执行之前计划行动和推理。

一些世界前沿的物理世界模型研究组织有:

  • Meta FAIR:主张基于自监督学习的预测架构。
  • Stanford’s World Labs (Fei-Fei Li):专注于空间智能和3D场景理解。
  • NVIDIA Cosmos:构建大规模生成模型来模拟环境,如Cosmos Predict,Transfer和Reason1。
  • ZhiCheng AI World Model:专注于机器人的物理智能

这些模型在实现上有所不同,但有一个共同的目标:为Agent提供对其环境的内化理解。

⚙️物理世界模型的核心组成和机制

多模态输入处理:它们接受视频、图像、传感器数据流(例如LiDAR、IMU),有时还包括语言,来创建统一的特征表示。

时间预测:像 “Dreamer” 或 “Cosmos Predict”这样的模型,学习从历史数据中预测未来的框架或状态。

潜在特征学习:WMs不是在原始输入上操作,而是使用通过编码器和分词器学习的抽象状态空间。

自我监督学习:训练通常通过下一步预测、对比学习或重建等目标来完成。

模拟和推理:经过训练后,WMs可以模拟各种假设场景,这对规划、安全和适应至关重要。

世界模型是如何工作的?又适用于哪里?

世界模型的运行一般分为三个阶段:

  • 数据摄取:收集多模态感官数据并将其标记为紧凑的特征表示。
  • 世界学习:模型学习从当前状态和动作到未来状态的映射(动态环境)。
  • 模拟与规划:推理包括模拟未来结果和选择最佳行动。

这些步骤允许世界模型提供以下AI应用:

  • 自动驾驶(如预测路况)
  • 机器人(如操作、移动)
  • 合成数据生成(如用于训练其他AI模型)
  • 具身推理(如物理常识)

世界模型与视觉-语言-动作(VLA)模型有何不同?

VLA模型,如RT-2或OpenVLA,擅长使用大规模的视觉和语言数据来解释指令和响应动作。然而,它们通常不会建立世界的内部模型。

具身智能流派技术概况及其差异

现在具身智能跨越了多个技术流。每个都有不同的理念和工程的权衡:

✅ 经典自动化控制

  • 基于微积分线性和非线性的物理优化
  • 精度高,但适应性差

深度强化学习(DRL)

  • 通过试验和错误学会策略
  • 功能强大但数据效率低下

物理世界模型

  • 通过内部模拟进行预测规划
  • 最理想的向前推理和环境适应

VLA模型

  • 语言和感知驱动的Agent控制
  • 高度泛化性,但物理上理解很肤浅

‍ 遥操+模仿学习(LfD)

  • 从人类演示中引导模型
  • 数据需求低,但可扩展性较差

多模态传感器融合&空间智能

  • 结合视觉、触觉和本体感觉
  • 丰富但计算量大

这些方法并不相互排斥。例如机器人可以使用物理世界模型进行规划,使用VLA跟随指示,使用传感器融合进行实时感知。

最终的想法

世界模型不仅仅是另一种AI架构——它们代表了一种向内化理解、模拟和预测的范式转变。在未来,物理AI必须不断行动、适应和学习,世界模型为通用智能体提供了所需的大脑核心。虽然还不完美,但它们构成了智能物理交互的基础,标志着向嵌入式AGI迈出了重要的一步。

References

感谢智澄AI创始人胡鲁辉以及其他科学家们对本文的主要贡献。主要参考文献如下:

What Are World Models?(Luhui Hu)

https://pub.towardsai.net/what-are-world-models-41ff394ed871

Academic Foundations

1. Ha & Schmidhuber (2018). World Modelshttps://arxiv.org/abs/1803.10122

The original paper that introduced the concept of using generative models (VAE + RNN + controller) to simulate environments for agents.

2. Hafner et al. (2019–2023). Dreamer, DreamerV2, DreamerV3

https://arxiv.org/abs/1912.01603

https://arxiv.org/abs/2005.12114

https://arxiv.org/abs/2301.04104

Progressive work from DeepMind on learning latent world models for reinforcement learning through imagination.

Industry Research

3. Meta AI (Yann LeCun). A Path Towards Autonomous Machine Intelligence

https://openreview.net/pdf?id=BZ5a1r-kVsf

A visionary blueprint for self-supervised, predictive world models as the core of intelligent agents.

4. NVIDIA Technical Blog. Scale Synthetic Data and Physical AI Reasoning with NVIDIA Cosmos World Models

https://developer.nvidia.com/blog/scale-synthetic-data-and-physical-ai-reasoning-with-nvidia-cosmos-world-foundation-models/

Overview of the NVIDIA Cosmos WFM platform for physics-aware simulation and AI reasoning.

5. Fei-Fei Li’s World Labs — Coverage from:

Reuters:https://www.reuters.com/technology/artificial-intelligence/ai-godmother-fei-fei-li-raises-230-million-launch-ai-startup-2024-09-13/

Axios:https://www.axios.com/2024/12/03/fei-fei-li-startup-photos-3d-worlds

Focused on spatial intelligence and grounding perception in 3D environments.

Related AI Architectures

6. Google DeepMind (RT-2). RT-2: Vision-Language-Action Models

https://robotics-transformer2.github.io

Demonstrates how large VLA models operate and how they differ from simulation-centric world models.

7. OpenVLA: An Open Vision-Language-Action Benchmark

https://openvla.org

Useful for contrasting policy-driven multimodal AI with simulation-centric approaches.