对话智源研究院理事长黄铁军：构建完整的世界模型是一条漫长的道路|对话智源研究院|智源研究院理事长|漫长的道路|黄铁军

世界模型正在成为当前人工智能产业出现频率最高的关键词之一，越来越多的研究机构和企业，开始将世界模型视为下一阶段人工智能竞争的重要方向。

与此同时，围绕世界模型究竟是什么、与当前主流的VLA路线有何区别、又将依靠什么样的数据继续进化等问题，行业内仍存在诸多争议。6月13日，在接受包括《每日经济新闻》记者在内的媒体采访时，智源研究院理事长、北京大学计算机学院教授黄铁军系统回应了这些问题。

在黄铁军看来，当前大量企业采用VLA路线推动具身智能落地，与世界模型的发展并不矛盾。对于产业而言，成熟技术解决具体问题是一种现实选择。但如果将来出现一个通用大脑作为基座，支撑垂直模型解决各个领域的问题，那么通用世界模型将会扮演这样一个角色。

从VLA到世界模型：机器人需要一个理解现实世界的大脑

随着具身智能成为资本和产业共同追逐的热点，VLA（Vision-Language-Action）路线已经迅速成为行业主流之一，大量具身智能企业都依靠这一路线推动具身智能落地应用。

面对这一趋势，外界也开始产生一个问题：既然VLA已经能够解决很多现实问题，世界模型是否还有必要？

在黄铁军看来，两者本质上并不构成竞争关系。企业采用VLA，是因为这是一条已经被证明能够解决现实问题的路径。在制造、搬运、抓取等特定场景中，现有大模型技术已经具备相当程度的可用性。但从研究机构的角度来看，如果目标是打造能够像人一样在不同环境中行动、解决不同问题的具身智能，仅靠针对具体任务训练出来的能力远远不够。

“人脑就是一个小宇宙，人类其实对这个世界是有一个模型的，我们在做什么事的时候，有一个基本的判断依据。”黄铁军认为，真正意义上的世界模型不仅要理解物体运动、空间关系等基础规律，还要理解材料性质、环境变化以及人与人之间复杂交互后的因果关系。

黄铁军表示，机器人面对的不只是搬箱、抓取物体这类简单任务，还会涉足灾害救援、极端环境作业等高度开放的复杂场景。

例如，当机器人面对火灾现场时，人类会本能地避开火焰，因为人体无法承受高温，但机器人如果能够判断自身材料不会被融化，就可能作出完全不同的决策。

对于世界模型的发展速度，黄铁军认为，如果目标是构建一个能够掌握物理、化学、生物乃至社会运行规律的完整世界模型，这仍然是一条非常漫长的道路。因为人类自身对世界的认知在不断扩展，“把所有的科学知识、生物的、化学的、生命的所有都希望这个世界模型能装进去，是一个长远的、理想的目标”。

相比之下，更现实的目标是让机器人先获得类似普通人的常识能力，“未来两三年，能跟人日常工作相比的这样一个世界模型，是有可能出来的”。

与此同时，黄铁军还特别强调了另一个经常被忽视的问题，即效率。在他看来，从世界模型的角度，一方面追求功能完备，另一方面要求其在低功耗状态下，做到操作精准、反应灵敏。

新的范式：世界模型正在寻找新的“数据燃料”

如果说世界模型的目标是理解现实世界，那么支撑其成长的核心资源仍然是数据。不过，在黄铁军看来，世界模型时代的数据逻辑正在发生变化。

过去几年，大模型的发展主要依赖静态数据集。企业通过采集数据、构建数据集，再进行离线训练，从而不断提升模型能力，这种模式推动了语言模型和多模态模型的快速发展，但在世界模型阶段，单纯依赖静态数据已经难以满足需求。

黄铁军认为，数据本身就是对环境的一种不完备的表达，当前，数据这个概念本身有些过于静态，“我们甚至可以把数据这个词再稍微推广一点，生物正是通过与环境交互，获取进化所需的信息”。在人类认知世界的过程中，知识并不仅仅来自书本，更多时候，人是在与环境持续互动中形成认知。踢球、游泳、弹琴，甚至每天的工作和生活，本质上都在不断获取新的信息。

因此，黄铁军认为，在世界模型阶段，实时交互性的数据会越来越多，耳机、智能眼镜等可穿戴设备的发展，将推动这一变化加速发生。用户看到什么、听到什么、说了什么，都可能被实时记录下来，并同步成为智能体理解环境的一部分，“你看见了他也看见了，你不要把你看见的东西翻译给他”。

当这种同步感知成为常态时，人们的工作和生活过程实际上正在被数字化，而这些第一视角、实时同步的数据，也将成为训练世界模型的重要资源。

这一判断背后，实际上对应着数据采集模式的改变。

当前不少机器人企业仍在建设专门的数据采集中心，通过遥操作、人工示范等方式获取训练数据。黄铁军认为，从长期来看，这未必是成本最合理的方式。相比之下，让工人在正常工作过程中佩戴设备同步采集数据，或者让用户在使用智能体服务过程中自然产生数据等模式也需要探索，“我相信穿戴式的这些传感器会越来越多，会对未来的更多的数据产生提供一个重要的来源”。

代码能力的重要性在过去被行业低估

过去半年，以Anthropic为代表的科技公司正在不断强化代码能力建设，Claude Code等产品引发产业关注。

“代码本身逻辑性肯定是比自然语言要强，这是设计计算机语言编程的重要原因，所以它肯定是对大语言模型的性能是有重要影响的。”黄铁军表示，Anthropic在其部分的模型训练中，代码数据占比已经达到极高水平，其中不仅包括开源代码，还包含大量经过长期迭代的高质量商业软件代码。

黄铁军坦言，很多人最初关注代码数据，是为了提升模型性能，却忽视了Coding本身巨大的产业价值，这是需要反思的问题。

黄铁军表示，今天社会运行的底层已经越来越依赖数字系统。电网、金融系统、企业管理软件乃至互联网服务，本质上都是由代码构成的数字世界。相比受制于硬件、传感器和现实环境的具身智能，数字世界的重构门槛更低、见效更快。

在他看来，这也是OpenAI、Anthropic等现阶段持续强化Coding能力的重要原因。