空间智能初探：重建与生成的双路径实践|新论文|显式|空间智能初探|视图|轨迹|高斯

作者 | 彭君然博士，北京科技大学副教授

审核｜Kitty

策划 | QCon 全球软件开发大会

在当前人工智能技术快速演进的大背景下，模型规模持续扩大，智能形态正从离身智能向具身智能迈进。本文整理自北京科技大学副教授彭君然博士在QCon 全球软件开发大会2026北京站的演讲分享《空间智能初探：重建与生成的双路径实践》。

本次分享系统梳理了彭君然团队过去三年间在世界模型领域的探索历程。从 2023 年开始聚焦世界模型这一概念，团队几乎尝试了所有与之沾边的技术路径，逐步构建起从三维场景重建到四维体视频生成的完整技术栈。本文将沿着三条核心技术路线的演进脉络，深入解析大规模场景重建、图形学引擎智能内容生成、视频生成辅助重建，以及最终的四维世界模型生成系统的设计思想、实现细节与关键实验结果。

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

人工智能的现状与未来

过去几年，人工智能的发展呈现出几个清晰的技术趋势。一方面，模型规模从小变大，参数量级持续攀升，能力边界不断扩展。另一方面，AI 的核心任务从感知逐步转向生成，从识别图像中的物体发展到直接创造新的视觉内容。与此同时，智能的形态也开始从离身智能转向具身智能，从纯粹的信息处理走向物理世界的交互。在我们看来，由于发展速度太快，业界必须直接思考人工智能的终局是什么，或者说人类生产力革命的终局是什么。我们与大量同行、投资机构在半年间进行了广泛讨论，大家达成了一项共识：这很可能就是最后一次生产力革命。既然是最后一次，定义清楚终极形态就变得至关重要。

那么，这个终局的图景是什么样的？我们的判断是：语言智能或者说 AI 的生成能力一定会在五到十年内将虚拟空间中一切能够替代的事情替代掉。当虚拟空间被完全覆盖之后，下一步必然会辐射到物理空间。即便我们不确定辐射到物理空间需要多长时间，保守估计五十年之后物理空间大概率也会被 AI 全面覆盖。这个趋势一定会发生。然而，在这个趋势中存在一个关键环节：虽然大语言模型具备了很高的智能能力，但它“只会说不会做”，缺乏从认知到物理执行的闭环。这里我们强调的不是狭义的具身智能，而是更广义的闭环。我们对具身智能的定义是从 observation 生成 action，但完整的智能系统还需要一个反向的通道——如何从 action 去预知或推演尚未发生的 observation。这正是世界模型要发挥的核心作用。

世界模型：机遇与挑战

世界模型这一概念在学术史上由来已久。早在 1945 年，心理学领域就出现了关于从行动推演观测结果的思想，但当时停留在虚拟层面，没有具象化。直到最近几年，一系列标志性技术成果陆续浮现：2023 年出现的 Sora、Google 的 Genie Three，以及李飞飞团队 World Lab 推出的 Marble，逐步将世界模型的概念从抽象推向具象。如果我们将世界模型的功能定位为提供从 action 到 observation 的闭环，那么它的本质就是从认知到物理世界的连接。基于这一定位，我们对理想世界模型提出了三项功能期待：第一，它应当能够推演未来，包含因果知识，而不是简单的像素预测；第二，它不能仅仅是视觉上的因果关系，必须内化大量物理学规律，能够理解重力、摩擦力、碰撞等物理现象；第三，它的表现形式应当是丰富的，因为世界模型本身是抽象的存在，可以借助 2D 图像去观测，也可以进行物理层面的交互。理想的世界模型应该是一个丰富的存在，能够与我们每一种观测和交互形式无缝对接。

当我们在 2023 年底开始系统性地思考世界模型的实现路径时，业界刚刚出现了一项重要技术——3D Gaussian Splatting。这篇发表于 2023 年中的论文提出了一种高质量、显式表达的三维重建方法，在当时引起了广泛关注。我们判断，无论三维重建能否预测未来，它起码提供了一种能够“摸得着”的世界表达形式。李飞飞团队的 Marble 虽然最终呈现形式是漫游式的场景浏览，但其底层实际上直接采用了 3D Gaussian 作为显式表达的基元。通过多视图图像输入，系统就能重建出一个完整的场景。但这条路径存在一个根本性问题：虽然拥有显式的几何表达，物体在视觉上可以触碰，但它完全“动不了”，无法进行推演和物理交互，因为场景中的所有物体都被粘连在一起，缺乏独立的物理实体属性。这是第一条技术路线。

第二条路线来自游戏产业和图形学领域多年积累的经验。物理引擎和图形学引擎，比如 Unity、Maya、ZBrush，一直支撑着图形学工程师和游戏美术师创作各种游戏世界和虚拟空间。甚至在航空航天领域，动力学仿真也依赖工程师借助类似工具完成。在 2023 年这个时间节点，这或许也是一条通往世界模型的途径——通过程序化生成的方式，借助简单的语言描述或参数化输入，就能生成各类资产，同时赋予它们符合物理学规律的行为能力。这条路线最大的优势在于输出结果与工业管线天然兼容，可以直接导入物理仿真引擎进行交互测试。

第三条路线则是近几年基于视频生成的路径，以 Sora 为代表的一系列工作。这条路线的问题是“看得见但摸不着”，而且很难保持几何上的一致性和时间上的一致性。所谓几何一致性，是指一个物体从某个方向走过去看到的样子，退回来之后应该保持一致；从正面看到的形态和从侧面渲染出来的结果不能产生明显的偏差。所谓时间一致性，是指从一个位置往前走五步看到的内容，退回来时应当与之前一致。但这些基于视频生成的方法归根结底仍然是视频生成的逻辑，缺乏任何几何约束来维持时空一致性。当时业界并不知道最终解决方案是什么，我们决定三条路线齐头并进，团队也确实在每条路径上都进行了深入的研判和探索。

三维重建

在大规模场景重构这条路径上，我们率先开展了业界最早的大规模场景重建工作。到现在，几乎所有城市级大规模场景重建的 benchmark 和 baseline 都建立在我们的工作基础之上。我们的核心思路是：如何通过无人机飞一圈、拍摄两百多张照片，就将一个城市以显式模型的方式完整建模出来。这个过程面临巨大的计算挑战，存在大量冗余运算和内存爆炸的问题。我们通过 LOD 等多层次细节机制，构建出大规模场景重建的工程框架。用户只需要输入多视图的 observation 数据，系统就能输出显式的场景表达，支持自由漫游。但从终局视角来看，这仅仅是在三维高斯路径上迈出的一小步，距离真正的世界模型还非常遥远。这直接推动了我们的下一项工作——三维高斯 V2 版本。

在 3D Gaussian Splatting 的原始表达中，存在一个根本性的设计取向问题：它是为渲染而存在的，是为视觉质量而存在的。它的目标是在新视角下呈现出逼真的视觉效果，追求的是渲染质量的最大化。但它的显式表达实际上非常模糊。当观察者拉近视角时，会看到大量模糊的椭球状高斯体，这些高斯体在视觉上可能与真实物理世界存在很大差距，更不用说进行物理交互了。因此我们开始思考，能否仅通过多视图图像这样的视觉信息，就呈现出与真实世界高度近似的几何表达。为此，我们在训练过程中引入了大量的 normal map 约束以及物理和几何层面的约束，成功将几何结构优化到相当理想的水平。以操场场景为例，我们重建出的几何结构非常规整，地面平整度极高。而对比其他方法，无论是出现各种 artifact 还是几何扭曲，差异都非常明显。在几何质量大幅提升的前提下，渲染质量依然得到了很好的保持。

但这仍然不够。因为我们思考的是终局场景，不仅要覆盖城市规模的重建，还要走向能够交互、能够接触的物理空间。一个物体看起来表面非常平整，并不代表在进行物理模拟时能够达到足够好的仿真效果——如果底层几何结构本身就存在微小的不规则性，物理仿真依然无法达到理想状态。因此我们又往前走了一步，将几何先验或者说 planar 先验引入到系统之中。我们利用大量平面检测方法，将平面结构约束整合进高斯表达中，使得几何结构更加精细、更加规整，并且能够直接转换为结构化的网格表达。

这项改进带来了显著的好处。有一个非常直观的例子：我们将重建出的场景导出到物理仿真引擎中，直接进行物理学推演测试。比如，经过我们方法处理后的平面，当施加一个向左的拉力时，物体可以非常平滑地移动，说明在物理模拟层面这个平面确实是平的。但另一个箱子场景，虽然肉眼看平面非常平整，推的时候却完全拉不住，因为表面之下存在着大量肉眼难以观察到的几何不规则结构。即便如此，我们认为这还远远不够，因为场景仍然缺少物理属性——摩擦系数、金属度、光滑度、粗糙度等关键参数都没有被赋予。

为此，我们进一步开展了 Material 三维方面的工作。核心问题是：重建出来的场景能否被赋予完整的物理属性？金属度、光滑度、粗糙度、摩擦力这些参数应该从哪里来？问题的难点在于，人看到的是二维图像，虽然可以从中识别出材质信息，但如何将 2D 材质认识映射到 3D 空间中的对应位置？我们回归到图形学和游戏建模的思路：材质真正接触的是物体表面，因此可以通过 UV 映射将表面积展开。在多视图的场景下，如果将 2D 图像中的材质分割信息和语义认识聚合投射到 3D UV 空间中，就能使整个资产的每一个部分都明确知道自己是什么材质。一旦确定了材质类型，每种材质球对应的摩擦力、金属度、光滑度等物理参数就可以直接赋值。至此，我们的场景重建工作阶段性走到了这一步。

图形引擎

在推进高斯重建路径的同时，我们在 2024 年初判断图形学引擎这条路线也必须同步推进。做出这个判断的逻辑非常清晰：基于高斯生成的方法，因为根源上是 generation 的方法论，与工业管线完全无法对接，既不能导入传统的 TXM 工具，也难以进行各类物理仿真。而最直接能够对接物理仿真的方式，恰恰是通过图形学引擎——例如 Unity 制作出来的场景可以无缝导入到各类物理仿真系统。但如果仅仅依靠人工方式建模，我们的工作与游戏美术师并没有本质区别，无法体现效率上的革命性提升。

恰逢此时，大模型和 agent 技术开始成熟。我们搭建了一套完整的 agent 驱动体系，利用 agent 来理解用户意图，从地形地貌、地编规则、资产选择、布局摆放等多个层面进行语义解析，最后将设计意图实施到引擎环境中。基于这一思路，我们开展了一系列工作。其中一项是 CX 系统：用户只需要输入一句话的描述，系统就能利用图形学引擎中原生的 PCG 能力和各类资产库，自动生成符合描述的完整场景。更重要的是，这样生成的场景不会像 video generation 那样存在时空一致性问题。每一个资产都自带物理属性，如果某个资产本身绑定了风吹草动的效果，当场景中实时刮起一阵风时，场景里的物体也会相应地产生动态响应。我们将这套技术拓展到了城市场景生成领域。在与华为的合作中，我们开发了面向自动驾驶仿真测试的城市场景生成系统。通过 OSM 地图数据的输入或遥感图像的自动解译，系统能够直接生成完整的城市环境，用于生产各种 corner case 测试场景。

此外，我们还将技术延伸到具身智能服务领域，选择了一个垂直领域进行深耕——超市场景的仿真数据生产平台。为了构建这个平台，我们调研了国内大大小小四五十种不同类型的超市，对其中超过一千一百件资产进行了精细化的三维扫描，构建起完整的超市资产库。这个平台不只是简单地摆放一些物品，它涵盖了完整的超市功能区划分、多种货架类型的覆盖——几乎囊括了市面上现存的所有货架种类，商品覆盖率也达到了很高的水平。我们通过 agent 驱动的方式，系统可以自动根据语言描述或者参考照片生成完整的超市仿真场景。更关键的是，相比前两个阶段的工作，我们在这个过程中直接提供了物理属性的赋予能力，使得生成的场景能够无缝导入物理引擎，用于机器人操作的测试和闭环仿真。我们将整个平台交付给第三方公司之后，第三方公司将自己机器人的 URDF 模型导入我们的平台，直接进行仿真操作训练。实践证明，这套系统能够支持非常精细化、完备和顺畅的机器人仿真功能。

视频生成

视频生成这条路线我们同样没有放弃。但作为学术研究组织，我们并不具备使用几十万张 GPU 去训练像 Sora 那样规模的视频生成模型的条件。将视频生成引入世界模型建设，存在一个核心定位问题：重建和生成，究竟以谁为主？我们一开始选择了相对稳健的步子，希望借助视频生成模型来帮助重建，而不是反过来用重建去约束视频模型。

这项工作的直接应用场景来自自动驾驶领域。目前，很多自动驾驶公司已经开始在闭环仿真中使用高斯表达作为仿真场景。但用高斯做仿真场景存在一个特有的问题：在我们的场景重建流程中，数据采集往往使用无人机从空中飞行，拍摄视角和采集视角非常理想，覆盖范围广且均匀。但对于自动驾驶车辆来说，相机只能沿着道路行驶，视角受到严格限制。在渲染或仿真时，经常需要获得路径偏下半米或者往上偏移一定角度的观测结果。在这种情况下，输入数据的分布并不理想，相当于要求在稀疏甚至非理想的视角条件下完成整个场景的三维空间建模，同时还要支持新视角合成。因此我们判断，一定要引入视频生成模型，起到 refinement 的作用。

我们的具体机制是：首先利用已有的路径数据对场景进行初步重建。这个初步重建的结果在新视角上——比如将视角往左推移一定距离——会出现各种退化和大量 artifact。我们刻意构建出这些带有 artifact 的图像，然后专门训练一个视频生成模型来将这些退化修复回来，得到理想的高质量渲染结果。通过这种方式，虽然实际采集数据只沿着一条路径，但在新视角下的观测结果都能被有效 refine。refine 之后的图像又可以反过来用于新一轮的重建，通过这样反复迭代，将整个场景的质量逐步夯实。最终的效果是：只需要沿路采集数据，但用户可以在任何视角、任何视点下查看场景，都不会出现几何退化或 artifact。这样的质量足以支撑自动驾驶仿真，甚至可以放入车辆模型，制作动态事件并进行反控计算。

4D 世界模型

经过两年时间在多条技术路线上的并行探索，我们的最终目标指向了四维世界模型。二维世界模型缺乏三维和空间约束，这个不足是根本性的。我们理想中的生成结果不是一个 2D 视频，而是一个体视频数据——volumetric video。这意味着，生成出来的视频在任何视点、任何视角下观察到的内容都是一个立体的、有深度的存在。

要理解这个定位在整个行业中的位置，可以沿着 face map 来观察。从 1D 到 2D 再到 3D，Marble 已经用 3D 方式建立了场景模型，但 Marble 的问题在于虽然是显式表达，用户只能在场景中走来走去进行观测，场景本身没有动态的变化。我们追求的是四维世界模型：这里发生的是一个动态的、正在演进的事件，甚至可以说正在演一部电影，但这电影实际上是一个四维显式表达在运行。与此同时，观察者可以在任何一个视角下、从任何一个位置去观测这个电影中所发生的一切。这意味着系统必须同时满足动态性和自由视点两大要求。

实现这一目标面临极其严峻的技术挑战。最大的困难在于监督信号的缺失：互联网上存在的视频数据，压根无法提供足够的三维监督信息。如果是静态场景，可以通过多视图数据进行 3D 监督；如果是动态场景，目前 3D generation model 有自己特定的监督方式，video generation model 也有自己的训练数据，但我们需要的是四维时空数据的监督，这种监督在现有数据集中几乎不存在。与此同时，还存在效率问题：如果采用传统的三维高斯或三维点云方式来逐帧处理，整个流水线的运算效率非常低，难以实用化。

好在前馈式网络的出现为效率提升带来了转机，例如 VGG 等前馈式重建网络已经展示了将重建过程大幅加速的潜力。我们的思路是各取所长：利用不同模型各自的优势，通过相互不断 refine 的迭代过程，最终收敛到一个四维的优质表达。这是我们近期的一项新工作，也是 2026 年 CVPR 的接收论文。

整个系统的输入可以是一个普通的 2D 视频，甚至是一张图片或一句文本描述，最终的输出是一个 volumetric video——体视频。系统的核心由两个模型构成。第一个是前馈式四维生成模型，它的输入是单目 2D 视频，但输出直接是四维的高斯表达，包含三维高斯的基本几何信息，再加上时间维度的参数、生命周期和衰减期等时变属性，构成完整的四维显式表达。然而，这一步生成的结果仍然缺乏足够的几何约束，质量需要进一步提升。

因此我们引入了第二个模型——视频 refinement 模型。这个 refinement 的过程并不是在时间维度上进行的，而是在空间维度上展开。例如，对于某一帧画面，当我们进行 motion control 或 camera control 时，需要处理的问题是这样的：当前视角渲染出来的画面是经过验证的，但当观察视角向左偏移三十度时，新视角下看到的内容应该如何修正才能保证一致性？为了训练这个空间 refinement 模型，我们专门渲染了五百万对 pair 数据。整体的迭代流程是：训练完成两个模型之后，输入视频经前馈式模型直接生成四维高斯表达，然后利用这个高斯表达渲染出新视角的观测结果，再将这些结果送入 refinement 模型进行优化，优化后的结果又重新用于更新高斯表达。如此往复迭代，最终收敛到高质量的时空一致表达。

四维表达的关键区别在于：我们可以在这个“视频”中自由移动视点和自由改变视角，去观察场景中到底发生了什么。如果使用点云或高斯图来可视化，结果会更加直观。另一个标志性能力是 bullet time 效果：系统生成的视频自带 bullet time 特效，可以让时间流速自由变化的同时保持视点切换的完美连贯性。即便是输入仅有一张静态图像，系统也能直接生成用户可以自由漫游的动态场景。

更重要的技术价值在于：因为底层是四维显式表达，时空不一致性被从根本上消除了。观察者走过的任何地方，回头再看时都与之前看到的一模一样，这在传统 2D 视频生成模型中几乎是无法保证的。

这一技术特性对具身智能应用具有巨大价值。如果用传统 2D 世界模型或 2D 生成模型来为机器人提供运动轨迹，必须经过一个额外的逆解算步骤来获取空间轨迹——因为输入本身是 2D 的，但机器人的运动轨迹必然是 3D 甚至 4D 的，包含位置和方向信息。而当轨迹直接建立在四维显式表达之上时，点源和刚体直接变化的轨迹就是最原始的轨迹，不需要再引入任何 inverse 模型来解算。

在自动驾驶仿真领域，我们也进行了大量 demo 验证。以与联通和北汽的合作项目为例，一个很有说服力的场景是：自动驾驶车辆上通常搭载六路摄像头，通过我们的系统是否能够一次性将这六路视频同时输出？传统的 video generation 方法最怕的就是保不住几何一致性，六路输出之间会产生矛盾。但由于我们的底层是四维显式表达，六个 view 渲染出来的结果在几何上是完全一致的，与真实传感器拍摄的效果一样。此外，系统还支持 video 的 editing 操作，可以在场景中更换车辆等物体。由于所有编辑操作最终都会回到统一的四维显式表达中，完全不用担心引入任何 artifact 或时空不一致性。

回顾过去三年在世界模型方向上的探索历程，我们的体会是“千里之行始于足下”。这个过程极为艰辛。最初我们并不知道世界模型最终应该长成什么形态，甚至对它的定义都难以清晰把握。但从 2023 年开始，我们确实尝试了每一个可能的维度，每一条技术路径都进行了扎实的探索，一步一步地走到了现在，暂时地往前迈出了一小步。目前的四维表达仍然不够理想，而且系统仍然依赖于模型之间的相互迭代，并没有做到绝对的端到端。下一步，如果能够实现完全端到端的四维生成模型，那将是我们理想中的终极形态。

作者介绍

彭君然博士，北京科技大学副教授。本科毕业于清华自动化系，博士毕业于中科院自动化所，长期围绕空间理解、重建与生成开展研究，在该领域发表论文 30 余篇，其中作为一作和通讯作者在 IEEE T-PAMI、IJCV、CVPR、NeurIPS、ICLR、ECCV 等顶级期刊和会议发表论文 20 余篇，主导代表性工作包括 CityGaussian 系列，RoleLLM，SceneX，MarketGen，GAIA 等。研究成果在面向国家公共安全需求的智慧城市建设和面向经济民生需求的智能领域若干场景落地，曾与华为、腾讯、北汽、联通、航天科工等机构展开过深入的合作。

会议推荐

企业级 Agent 落地，绕不开 4 个真实的工程问题。如何在 Agent 安全性和可用性之间找到平衡点？Agent 需要什么样的记忆系统才能真正理解上下文？如何通过算法压榨实现智力增量与成本控制的极致平衡？多 Agent 协作，如何做到可观测、可治理、可控制？6 月 26-27 日，AICon 全球人工智能开发与应用大会·上海站国内头部公司的 Agent 实践，一次说透。