物理世界模型：AGI物理智能进阶的创新范式｜势乘研究|agi|势乘研究|多模态|机器人|物理智能

最近越来越多的人问世界模型是什么。随着世界模型（WMs）在AI研究和应用领域的发展，与视觉语言动作（VLA）模型等其他主流方法有何不同。在这篇文章中，将分解WMs是什么，是什么让它们变得强大，以及为什么可能是物理智能和AGI的基础支柱。

本报告由势乘资本和光锥智能联合发布

什么是物理世界模型？

世界模型是一种学习如何模拟现实世界动态的的内部表征。与静态感知模型不同，世界模型是生成和预测的——可以模拟世界如何随着时间的推移而演变，允许智能Agent在实际执行之前计划行动和推理。

一些世界前沿的物理世界模型研究组织有：

Meta FAIR：主张基于自监督学习的预测架构。
Stanford’s World Labs (Fei-Fei Li)：专注于空间智能和3D场景理解。
NVIDIA Cosmos：构建大规模生成模型来模拟环境，如Cosmos Predict，Transfer和Reason1。
ZhiCheng AI World Model：专注于机器人的物理智能。

这些模型在实现上有所不同，但有一个共同的目标：为Agent提供对其环境的内化理解。

⚙️物理世界模型的核心组成和机制

多模态输入处理：它们接受视频、图像、传感器数据流（例如LiDAR、IMU），有时还包括语言，来创建统一的特征表示。

时间预测：像 “Dreamer” 或 “Cosmos Predict”这样的模型，学习从历史数据中预测未来的框架或状态。

潜在特征学习：WMs不是在原始输入上操作，而是使用通过编码器和分词器学习的抽象状态空间。

自我监督学习：训练通常通过下一步预测、对比学习或重建等目标来完成。

模拟和推理：经过训练后，WMs可以模拟各种假设场景，这对规划、安全和适应至关重要。

世界模型是如何工作的？又适用于哪里？

世界模型的运行一般分为三个阶段：

数据摄取：收集多模态感官数据并将其标记为紧凑的特征表示。
世界学习：模型学习从当前状态和动作到未来状态的映射（动态环境）。
模拟与规划：推理包括模拟未来结果和选择最佳行动。

这些步骤允许世界模型提供以下AI应用：

自动驾驶（如预测路况）
机器人（如操作、移动）
合成数据生成（如用于训练其他AI模型）
具身推理（如物理常识）

世界模型与视觉-语言-动作（VLA）模型有何不同？

VLA模型，如RT-2或OpenVLA，擅长使用大规模的视觉和语言数据来解释指令和响应动作。然而，它们通常不会建立世界的内部模型。

具身智能流派技术概况及其差异

现在具身智能跨越了多个技术流。每个都有不同的理念和工程的权衡：

✅ 经典自动化控制

基于微积分线性和非线性的物理优化
精度高，但适应性差

深度强化学习（DRL）

通过试验和错误学会策略
功能强大但数据效率低下

物理世界模型

通过内部模拟进行预测规划
最理想的向前推理和环境适应

VLA模型

语言和感知驱动的Agent控制
高度泛化性，但物理上理解很肤浅

‍ 遥操+模仿学习（LfD）

从人类演示中引导模型
数据需求低，但可扩展性较差

多模态传感器融合&空间智能

结合视觉、触觉和本体感觉
丰富但计算量大

这些方法并不相互排斥。例如机器人可以使用物理世界模型进行规划，使用VLA跟随指示，使用传感器融合进行实时感知。

最终的想法

世界模型不仅仅是另一种AI架构——它们代表了一种向内化理解、模拟和预测的范式转变。在未来，物理AI必须不断行动、适应和学习，世界模型为通用智能体提供了所需的大脑核心。虽然还不完美，但它们构成了智能物理交互的基础，标志着向嵌入式AGI迈出了重要的一步。

References

感谢智澄AI创始人胡鲁辉以及其他科学家们对本文的主要贡献。主要参考文献如下：

What Are World Models?（Luhui Hu）

https://pub.towardsai.net/what-are-world-models-41ff394ed871

Academic Foundations

1. Ha & Schmidhuber (2018). World Modelshttps://arxiv.org/abs/1803.10122

The original paper that introduced the concept of using generative models (VAE + RNN + controller) to simulate environments for agents.

2. Hafner et al. (2019–2023). Dreamer, DreamerV2, DreamerV3

https://arxiv.org/abs/1912.01603

https://arxiv.org/abs/2005.12114

https://arxiv.org/abs/2301.04104

Progressive work from DeepMind on learning latent world models for reinforcement learning through imagination.

Industry Research

3. Meta AI (Yann LeCun). A Path Towards Autonomous Machine Intelligence

https://openreview.net/pdf?id=BZ5a1r-kVsf

A visionary blueprint for self-supervised, predictive world models as the core of intelligent agents.

4. NVIDIA Technical Blog. Scale Synthetic Data and Physical AI Reasoning with NVIDIA Cosmos World Models

https://developer.nvidia.com/blog/scale-synthetic-data-and-physical-ai-reasoning-with-nvidia-cosmos-world-foundation-models/

Overview of the NVIDIA Cosmos WFM platform for physics-aware simulation and AI reasoning.

5. Fei-Fei Li’s World Labs — Coverage from:

Reuters：https://www.reuters.com/technology/artificial-intelligence/ai-godmother-fei-fei-li-raises-230-million-launch-ai-startup-2024-09-13/

Axios：https://www.axios.com/2024/12/03/fei-fei-li-startup-photos-3d-worlds

Focused on spatial intelligence and grounding perception in 3D environments.

Related AI Architectures

6. Google DeepMind (RT-2). RT-2: Vision-Language-Action Models

https://robotics-transformer2.github.io

Demonstrates how large VLA models operate and how they differ from simulation-centric world models.

7. OpenVLA: An Open Vision-Language-Action Benchmark

https://openvla.org

Useful for contrasting policy-driven multimodal AI with simulation-centric approaches.

物理世界模型：AGI物理智能进阶的创新范式｜势乘研究

热搜

热门跟贴

热搜

热门跟贴

相关推荐

索尼研发乒乓球机器人打败日本顶尖选手

怀柔长城100跑山赛上，几千名跑步的选手，被一台机器人带飞！

山姆·奥特曼的炒作史

机器人突然撞过来，小姐姐忍痛仍然保持着优雅仪态，网友：机器人也是人控制的吧

遥控机器人的鼻祖80多年前就实战的德国歌莉娅线控履带车

LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

机器人参加半马比赛，前面表现中规中矩，后面画风逐渐抽象

4K240帧慢动作实拍，小鹏IRON机器人细节

浙江男子花860万买了套排屋，收房时傻眼，院子里有一个“凸起”，业主：跟老家的厕所一样，开放商：不利因素已公示

没有店员、24小时不打烊的便利店？机器人当店长？

人形机器人马拉松比赛碾压人类，短短一年时间的进化

大学生运动会开幕式上 机器人神走位自动疏散人群

90 后正在掌管中国 AI，凭实力活成了「爽文」主角

国防部回应外界推测中国对日将有大动作

机器人又发“神经”，冲进舞蹈方队，上演拳打脚踢

上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

一时分不清楚是真人还是机器人，现在都喜欢机器人像真人，真人扮

世界引擎：Post-Training开启Physical AGI新纪元

人形机器人搬运行李，东京一机场开启试用计划

时隔4年小米新款机器人亮相！外形炫酷

大学生运动会开幕式上机器人神走位自动疏散人群