北大陈宝权教授：从图形计算到世界模型|从图形计算到世界模型|北大|图形学|大模型|计算机|陈宝权

机器之心报道

机器之心编辑部

近日，北京大学陈宝权教授在第九届计算机图形学与混合现实研讨会（GAMES 2024）上，发表了题为《从图形计算到世界模型》的主旨报告，分享了他从图形仿真角度对世界模型的思考。本文是对陈教授报告的完整整理，以供大家学习。

世界模型是当前的热点话题。我这里分享的题目是 “图形计算到世界模型”，作为抛砖引玉，试图挖掘和展示图形计算和世界模型两者之间可能建立的紧密内在联系。

GAMES 这个平台上的报告，主要是为了交流，鼓励大胆提出想法，引发讨论，而不是单纯的宣读一些既有成果。所以，我为此做了一些调研和思考，期待通过这个报告，能激发更多关于图形计算如何助力构建更精准世界模型的深入讨论。

近年来，AIGC 领域的大模型技术取得了迅猛的发展，引发了广泛的关注与讨论。当观察到仅通过简单的文字输入，这些模型便能生成连贯且有逻辑的场景时，一个自然而然的问题浮现：这些模型背后是否隐藏着一个世界模型？这一疑问直指 AI 技术的核心，激发了业界对于模型内部机制与能力的深入探索。

首先，我通过 Google 进行了搜索，“Sora 是否具有世界模型”。搜索结果显示，Sora 具备了一定的模拟真实世界的能力，通过视频生成模型来体现。该搜索还关联到一篇相关文章，文章作者中有坐在台下的 Jiwen 老师。这篇文章通过对一系列生成模型的综述和分析，展示了 Sora 等模型内部融入了视觉模型的元素，支持了该类模型包含世界模型特征的观点。

退回一步，何谓 “世界模型”？其实，当前学术届和产业界对于世界模型缺乏一个统一且严格的界定。回顾过往，LSTM 的先驱 Schmidhuber 及其学生曾在其论文中探讨过世界模型，他们并未直接给出世界模型的明确结构，而是从功能角度进行了阐述。他们认为，世界模型的核心在于其预测（prediction）与规划决策（planning）的能力。换言之，若一模型能够基于当前信息预测未来状态，并据此做出合理规划与决策，那么它便被视为具备世界模型的特征。这一定义虽非严谨的结构性描述，却从实用功能角度出发，为我们理解世界模型提供了有益视角。

Yann LeCun 作为人工智能领域内的重要人物，也曾从现象层面深入剖析世界模型的概念。尽管这一阐述也未提供严格定义，但他认为世界模型所涵盖的关键能力，如预测、推理、决策及规划等，与我们先前讨论的内容高度契合。值得瞩目的是，LeCun 的论述将世界模型的功能同人类大脑类比，通过图示形象地展示了这一理念。

从 GPT-4o 的回答中，我们也可以看到类似的观点：世界模型被描述为一种能够进行模拟、预测、规划和决策的系统。这种系统通过学习和理解大量的数据，构建出对现实世界的内部表示，从而能够模拟不同情境下的可能结果，并据此做出最优的决策。

综上所述，我们可以通过构建一个最简单的示意图来直观理解世界模型。我们以真实场景作为输入，通过一个有理解、分析、模拟、评价等能力的世界模型，最终实现在该输入条件下符合真实场景的未来预测及决策推理。这样的世界模型体现了人工智能技术在处理复杂信息方面的能力，也预示了其在多个应用场景中的巨大潜力。

当前，众多大型 AI 模型已展现出在复杂场景应用中的卓越能力，特别是在无人驾驶领域，其成熟度尤为显著。底下左边，一个面向无人驾驶的高逼真仿真系统通过模拟多种传感器（如激光雷达、摄像头、声音传感器等）产生丰富的多模态数据，由此构建出一个庞大的数据集用于大模型训练。底下右边，该模型在新的场景下实现了对环境的精准感知，并由此做场景的动态预测，进行判断决策，完成自动驾驶任务。在这方面有许多著名的尝试，比如 nuScenes 这样的项目，它在数据丰富性和多模态性方面超越了传统的 KITTI 数据集，为模型提供了更为全面的学习素材。同时，英伟达等科技巨头也在无人驾驶场景的仿真模拟（simulation）方面投入了大量资源，推动了该技术的快速发展与应用。

可见在自动驾驶等领域，人工智能技术已展现出从真实场景输入到符合真实场景输出的从感知到决策的全链条能力，标志着这一技术正逐步迈向成熟，在现实中的应用会快速推广开来。

接下来，我想针对如何构建更加完备的世界模型这一宏大命题，探讨一下可能的实现路径。尽管语言、图片和视频大模型已展现出强大的能力，但这仅是建立世界模型征途的起点。大模型依托 scaling law，通过海量数据 “喂养” 取得了显著成效，但我们能产生的数据的边界远未被触及，可能的训练模式也远不止当前这些。

我将从几个核心维度展开阐述：数据丰富性、训练模式、监督机制的增强，以及这些要素最终有机融合，共同推动世界模型的构建。在这一过程中有一个中心词就是 simulation，它占据了举足轻重的地位。图形计算的核心目标就是模拟一个真实的世界，所以我将把它等同于 simulation。这样的 simulation 在模拟真实世界、更有效地训练模型，加速模型迭代与验证方面展现出非凡的价值。

首先，我们看看现有大模型训练的基本规律和其局限。

在大模型训练的过程中，一个关键观察是数据量与模型损失（loss）降低之间的关系。尽管常有人以线性关系简化描述，但实际上，这种关系更接近对数 (Log) 关系，这暗示了模型对数据需求的指数级增长特性。事实是，随着模型训练深入，对数据量的要求急剧增加，以至于数据资源在迅速耗尽。这一现象在涉及更高维度（如三维及以上）的数据处理时尤为显著，进一步凸显了高效数据利用与扩展数据源的紧迫性。

在二维领域，对数据的需求已展现出庞大的规模，如德国开源项目 LAION 所展现的 5PB 数据量，尽管其后续版本 Re-LAION 经过清洗后重新发布，但数据量依然可观。然而，当我们转向三维数据领域时，情况则大为窘迫。从早期的 ShapeNet 到近期的 ObjectVerse 及其扩展版 ObjectVerse-XL，三维数据集的量级仅为数十兆，与二维数据相比，显然不在一个数量级上。这凸显了三维数据的极度稀缺性，是当前人工智能与计算机视觉领域面临的一大挑战。

在这一背景下，simulation（模拟）的重要性日益凸显。鉴于数据的有限性，如何系统性地生成更多高质量、带标签的数据成为关键。simulation 正是这一需求的强大解决方案。如今，计算机图形技术已远非仅限于特效制作和图像编辑，其核心实力在于模拟现实世界，构建的 simulation 系统可以生成海量数据，这不仅能够扩展数据集规模，还能提供丰富的标签和可控性，确保数据的多样性、合规性、约束其符合伦理道德标准，这样的数据增广为大模型的训练提供有力支持。

利用 simulaiton 来生成数据已经有许多成功的初步探索，如 UCSD 苏昊团队早期的针对图像姿态估计等任务的研究。这一工作的基础是采用有 pose 信息标注的图像作为训练数据的卷积神经网络（CNN），而真实世界中的图像中，有 pose 标注的是非常有限的，远不足以训练一个有效的模型。苏昊团队就利用了 ShapeNet 等三维数据集，通过三维渲染生成了大量包含姿态信息的图象数据，为 CNN 的学习提供了丰富的训练样本，而训练得到的模型，应用在真实世界无标注的图片上，也能够良好的泛化，得出有效的 pose 估计。这种数据生成方法有效弥补了现实世界数据标注稀缺的问题。

随后，基于这些三维数据，苏昊团队以及其他研究者们还开发了更为复杂的场景交互功能（interaction），如柜门开启、物体抓取等，旨在模拟真实世界中的物体交互，为机器人训练等应用提供更为贴近实际的数据支持。由此可见，图形计算提供的 simulation 能力已成为产生高质量、带标签、有功能的多样化训练数据不可或缺的重要手段。

但我们也都知道，模拟仿真（Sim）与真实现象（Real ）之间还存在差距，这是由数据的生成方式所决定的。那么为了生成更贴近现实世界的数据，在具身智能等智能应用中，我们需要采用 “real to sim” 与 “sim to real” 的策略。前者指从真实世界获取原始传感数据，用于构建相对应的仿真环境，比如说我们以香港科技大学广州校区（港科广）的校区作为目标对象，那么可以基于港科广的真实传感器数据重建其数字化表达，如果有动态场景，就建立与之对应的动态仿真，这就是 real to sim；一旦从 real 建立 sim，我们就可以通过改变模拟参数，来模拟出更丰富的场景，比如说新视点观察，场景重构和功能组合等。Simulation 是基于真实世界原理的，它具备很强的真实感，不只是在表象上（appearance），还包括它的动态（dynamics）和交互（interaction）等等，因此，基于图形计算的仿真能做到尽可能真实（as-real-as-possible），实现 “sim to real”。

但是，尽管 “sim to real” 努力使模拟接近真实，但完全消除两者之间的差距仍是一个挑战。因此，在部署阶段，往往还需进行 “real to real” 的微调，即在真实环境中采集输入输出数据来训练大模型，进一步调整和优化系统性能，弥合 sim 和 real 之间的差异。

对于复杂应用场景，Real2Real 的数据非常有限，完全依靠这类数据来实现具身智能是不够的。通过结合真实数据进行模拟仿真，然后高逼真生成仿真数据，扩展真实数据的边界，这样的 Real2Sim2Real 框架成为推动具身智能发展的重要途径。

在无人驾驶等工业界推进迅速的领域内，“现实到模拟”（real-to-sim）与 “模拟到现实”（sim-to-real）的双向转换上已经取得了显著成效。比如我们展示的这些例子，当然还有更多。但若仅将模拟技术局限于数据生成层面，是对 Simulation 潜力的一种低估，被大材小用了。

事实上，图形仿真不再仅仅局限于数据提供者的角色，而是成为了一个训练环境的构建者。通过强化学习等先进技术，图形仿真能够直接为训练过程提供环境支持，使得智能体能够学习并优化其决策推理能力，而这正是世界模型所应该构建的能力，实现理解、预测、策略、执行等关键功能。提供训练环境这一点对于推动人工智能技术的发展具有重要意义。身为计算机图形学领域的研究人员，我深感自豪的是，图形学在现在乃至未来的人工智能发展中将占据越来越重要的位置。

在多个领域，如数字人和机器人的运动控制、无人车行为控制等，深度强化学习已成为一种高效训练方式。该方法利用模拟环境（sim）提供的丰富交互场景，通过深度强化学习算法学习背后的策略（policy），从而更有效地获得预测能力。北京大学的刘利斌老师围绕数字人体的运动控制，在结合仿真环境这个方向上发表了许多优秀工作。在这些强化学习的工作中，物理仿真环境的有效交互成功推进了这些模型的鲁棒性和泛化性。

以下是利斌研究工作的展示。这些工作从捕获人体真实的动作开始，然后通过模拟（sim）环境与深度强化学习（deep reinforcement learning）技术相结合的方式，成功学习并模拟出相当复杂的动作策略（policy），比如滑滑板、使用筷子等等。注意，模拟的精确性是非常重要的 —— 模拟越精确，学到的内容质量越高，越接近真实世界。例如，最右侧的研究中引入了肌肉（muscle）模型，超越了传统关节动画，更加贴近真实的人体运动机制。这种准确的模型可以模拟许多真实的运动细节，例如长时间奔跑后体力下降，疲劳感所带来的动作变化等等，为人工智能在人体运动模拟领域的应用提供了新的可能。

在机器人领域，许多近期的工作通过采用一些高效的仿真框架，例如英伟达的 Omniverse 平台，深入探索了仿真（simulation）技术的潜力。他们利用该平台构建了大量仿真环境，并在其中应用强化学习（reinforcement learning）技术来训练和优化机器人的行为策略（policy），从而推动了机器人技术的创新与发展。

当前，仿真环境在多个领域已展现出良好的应用前景，但现有技术往往仍局限于刚体（rigid body）模拟，还存在大量的真实现象不能支持。为了更贴近现实场景，提升仿真效果，我们必须超越刚体模拟的范畴，探索软体、流体，甚至刚体与软体融合的多物理场（multiphysics）场景。在此过程中，如何实现多物理仿真，如何提高仿真的保真度（fidelity）和性能（performance），成为图形学领域的核心挑战与使命。因此，不断推进正向仿真（forward simulation）技术的边界，增强其综合性全面性的能力和真实感，是我们当前的重要任务，也是图形学非常硬核的（hard core）研究课题。

近年来，我的实验室持续致力于软体仿真领域的技术创新与突破，以下介绍几个代表性成果。例如，我们已成功实现了大规模软体的实时变形仿真。左图中的结构可能几何形态看似简单，但它其实包含大量四面体网格，需要在准确计算形变的同时，维持软体体积不可压缩的约束，其动态的计算不仅复杂，其计算量还非常巨大，而我们基于 GPU 的方法实现了实时的解算。此外，我们还深入研究了参数化表面的连续碰撞问题，这是仿真领域长期存在的复杂问题。右侧视频中的碰撞模拟效果展现了我们准确处理复杂参数化表面碰撞的能力。诸如此类的软体动态仿真是我们当前仿真环境所急需的能力。

进一步扩展到多物理方面，我们团队在流体与固体交互领域取得了一系列具有影响力的研究成果（博士生阮良旺、幸京睿、陶凝骁）。通过精确构建液体表面张力和流固相互作用的模型，我们成功实现了单一固体或液体仿真难以达成的真实感效果，为复杂物理现象的模拟提供了新工具。

我们团队针对磁流磁软体这一特殊领域的研究一直是国际领先的，如上图所示，取得了一系列的前沿进展。我的博士生倪星宇对此领域展现出浓厚兴趣，持续深耕这个子领域，不断地推进磁场流固现象仿真的边界。其中，他今年在 Siggraph 上的工作尤为突出，该工作能够广泛适用于磁场中的流体和刚体、软体，且相较于传统技术，实现了约 100 倍的性能提升。具体而言，在处理 512 立方体数据时，我们成功将帧率提升至每秒一帧，而此前则需耗时约 100 秒才能完成一帧的渲染，这一突破极大地加速了磁流磁软体模拟的实时性。

观察现实世界中的物体及其动态现象，其复杂性与多样性令人叹为观止。因此，如何构建更加精准、全面的仿真环境，以模拟这些复杂多变的物理现象，是我们需要不断探索和努力的方向。我们在推动仿真环境的研究将丰富强化学习环境，使其真正接近于真实的、多物理的世界，进一步提升世界模型的能力，大大扩展其应用领域。

尽管仿真作为强化学习训练环境展现出巨大潜力，但强化学习在长时间尺度下仍面临奖励序列冗长、策略优化易陷入困境及收敛困难等关键问题。为解决此挑战，可微分模拟的重要性日益凸显。通过引入可微分性，我们能够实现精细化的梯度回传机制，构建起监督学习的闭环系统，从而优化策略学习过程。

此转变要求 simulation 过程全面实现可微分，以确保有效的梯度传递与策略优化。相较于传统仅提供训练环境的仿真方法，这是一个比较新的研究领域，其核心在于实现全面的可微分性，将为模型训练的发展提供新的有效途径。

可微模拟领域尽管已有初步探索，但整体而言相关研究尚不充分，近年来，可微模拟正在逐步受到领域内的重视。以下我举几个例子，介绍可微的、逆向的模拟，以及它能实现的一些有效的优化和训练。

我的长期合作者王滨博士在逆向软体仿真方面做出了开创性的工作。首先，通过捕捉实际荷叶在受外力作用下的晃动，获取其动态点云数据及其表面几何变化；随后，结合物理学模型与参数，利用可微构建闭环的模拟系统，该系统首先前向模拟荷叶动态，继而通过可微优化残差，逐步拟合真实捕捉的动态数据。整个过程中，所有参数及模拟流程均实现可微分性，从而实现准确优化。一旦物理参数优化完成，我们即可准确模拟该数字化荷叶在不同条件下的动态响应，展现出强大的、与真实世界高度一致的预测能力。

这一方法论不仅限于软体，对于更变化多端的流体，我们也可以借助可微模拟来实现从真实世界的数据捕捉，到数字世界的流体物理场重建。比如这是北大楚梦渝老师的流体重建工作，它基于物理知悉网络（PINN）的可微性，实现了对真实世界流体的拟合、重建和模拟。

可微模拟技术不仅意味着我们可以拟合和重建真实世界的动态和静态数据，更在优化设计领域开辟了新路径。以下工作是我们团队的研究成果，展示了可微模拟在磁软体机器人控制中的应用（博士生陈旭雯）。磁软体机器人是一个具有磁性的，可以通过外磁场控制的软体机器人。我们的工作希望以外磁场为媒介，在现实复杂环境下，实现目标导向的控制，如爬坡、越障及穿越复杂地形等。这一过程涉及复杂的反向优化，即通过不断优化外部磁场参数，实现精准的动态调整。该优化过程高度依赖于可微模拟技术提供的实时反馈与梯度信息，外磁场在梯度的指导下灵活调整，操纵磁软体机器人应对各种挑战。

此外，可微模拟还赋予了我们设计软磁体机器人形状与物理参数的能力，为其在更广泛领域的应用提供了可能。

将可微模拟用于动态现象的生成，Michel Black 团队一个近期的工作具有代表性。他们通过少量数据训练了一个能够模拟人与衣物动态变化的模型。该方法的核心在于采用了一种基于可微模拟监督（differential phyisics supervision）的训练方法，有效利用物理知识等先验，克服了数据稀缺的挑战，从而构建出一个具有广泛适用性的模型。该模型能够在人体姿态与衣物状态发生显著变化时，依然能够生成合理且自然的动态效果。

这不仅展示了可微模拟监督在数据效率方面的优势，也体现了该模型在处理复杂物理交互问题上的强大潜力。

同样利用可微仿真，刘利斌老师在人体运动控制领域做出了一些突出的研究成果。面对人体运动的仿真环境不可微（non-differentiable）的难题，他们的工作采用了基于模型的学习思路，构建了一个可学习的物理代理模型（physics surrogate model），这一代理模型类似于世界模型，能够模拟物理行为，且具备可微分性和鲁棒性，从而提供了通过反向传播（backpropagation）进行物理监督和约束的能力。

通过这一方法，利斌团队使用较少的迭代次数，成功训练出了一个具有高度泛化能力的动作控制模型。该模型能够有效地处理人体运动控制中的复杂问题，展现了在复杂模拟中进行高效可微监督的潜力，不仅推动了人体运动控制技术的发展，也为其他领域中的非直接可微的系统优化提供借鉴。

可微代理模型在训练稳定性和高效性上的显著优势，使得它可以被应用于数据维度更大的任务当中，比如利斌后续的基于大量运动数据训练人体动作的生成模型的工作，可以有效压缩几十小时的多样化运动数据，首次实现大规模运动控制的生成式建模。可微的物理代理模型在其中负责提供鲁棒的基于物理等先验知识的约束，提高了复杂网络结构下的控制策略训练的稳定性，保证训练在较短时间收敛。这一工作也验证了可微模型在大数据与复杂环境下的有效性。

在探索可微模拟这一前沿领域时，我们不可避免地面临诸多挑战。首先，尽管已取得一定进展，但实际应用场景仍相对有限，且计算量极为庞大，对资源提出了高要求。此外，部分复杂现象因其非平滑特性，难以直接应用微分方法处理，这进一步增加了技术难度。再者，训练过程中收敛速度较慢，且存在扩展性问题（scaling issue），这些都是亟待解决的关键难题。尽管如此，该方法展现出了极高的可靠性和应用潜力，为提升世界模型指引了一个非常有发展潜力的路径。

以上，我们介绍和展望了图形仿真在世界模型训练中的突出作用，具体提出了几个新路径。前述种种策略与手段，不仅各自具备强大潜力，更蕴含着融合共生、协同增效的无限可能。具体而言，我们可以灵活整合数据资源，将其融入基于模拟的训练环境中，并利用微分方法实施监督学习等。在此，我绘制了一幅示意性综合图，旨在直观展现这些元素的融合汇聚，系统性推动世界模型的优化与发展。可以看到，simulation 在其中处于核心地位，是我们在真实数据稀缺时，延续 Scaling Law, 构建世界模型的坚实基石。

总结，回到当下人工智能与图形学领域，图形仿真无疑是亟待突破的关键方向之一，其发展空间广阔且充满挑战。从多物理现象的逼真与高效模拟，到交互性体验的全面提升，再到各动态现象的可微分表达，都是当前面对的核心问题。

值得一提的是，英伟达黄仁勋先生在 Siggraph 主题报告的间隙时间与观众交流，特别提到了 “微分物理”（differential physics）的重要性，他在这方面的呼吁我是非常认可的，我也拍下视频在朋友圈做了分享。我坚信，计算机图形技术对现实世界的高逼真模拟仿真能力将赋能人工智能，帮助其突破当下大模型训练 scaling law 的数据瓶颈，超越传统的数据增广，在建立新的路径上有巨大的探索空间。

以上便是我今日分享的主要内容，期待与各位进行更深入的探讨。谢谢大家。