与英伟达 GEAR 高深远聊世界模型、自进化循环和 DreamDojo|世界模型|大模型|智能体|机器人|自进化循环|英伟达gear|轨迹|高深远

与 DreamDojo 一作拆解 “世界模型” buzzword。

文丨实习生付自文

访谈丨程曼祺

过去一年，“世界模型” 成了 AI 圈最热、也最容易被滥用的概念之一。

它边界很宽：视频生成模型可以被称为世界模型，因为它似乎学到了物理规律；自动驾驶领域也需要世界模型，因为要预测道路环境的变化；机器人研究者也在谈论世界模型，因为机器人需要在开展行动前先预测后果。

本期《晚点聊》，我们试图把这个概念拆清楚。

对谈嘉宾是高深远，一位刚从港科大博士毕业、即将正式加入英伟达具身智能实验室 GEAR 的年轻研究者。他从 2024 年以来持续研究世界模型，早期做自动驾驶方向，后来在英伟达 GEAR 参与 DreamDojo 和 DreamZero 等工作，是 DreamDojo 的联合一作。

DreamDojo 是一个服务于 Physical AI 的世界模型；DreamZero 则是一个可能替代 VLA（视觉-语言-动作模型，visual-language-action model）的新的机器人策略，被称为世界动作模型（WAM，world action model）。

本期前半段，我们梳理了世界模型的大图景，以及 Google DeepMind、NVIDIA、World Labs 等主要团队的各自思路。

后半段，我们进入 GEAR 的具体实践。高深远认为，世界模型的核心价值不只是生成真实视频，而是构造一个自进化闭环：世界模型（DreamDojo）预测世界，policy（DreamZero）产生动作，Agent 负责规划和评估。

图中大脑代表 agent，机器人代表 policy，地球代表世界模型，中间是数据集。世界模型的输出（对世界下一刻的预测）是 agent 的输入，供 agent 给预测打分，打分可用以优化 policy；同时世界模型的输出也是 policy 的输入，而 policy 的输出（动作）是世界模型的输入。同时，agent 也给 policy 做任务规划。
世界模型到 agent 和 policy 是用视频 / 图像通信；policy 到世界模型是用 action 通信；agent 到 policy 是用文本通信；agent 优化 policy 可以是一个打分数值，也可以是由文本媒介转过来的一种分数信号。

这个循环今天还没有真正转起来，因为这 3 个组件的泛化能力都还不够。但如果未来能进入相互强化的正循环，机器人就能像 AlphaGo 那样在虚拟环境下、突破物理限制快速迭代。

这既会服务于机器人、车辆需要的具身能力的训练；也有更多的可能性，比如缩短试验周期、并发地做实验，服务科学发现。

按领域、按表征，世界模型的分类

晚点：世界模型这个词很大，也是现在 AI 领域典型的 buzzword（流行词），做游戏、自驾、具身智能的人都会提到。你作为研究者，会怎么给世界模型分类？

高深远：从上往下可以分成两类。最 high level 的是用一个 model 模拟环境去做决策；另一类是做基模、多模态，有 world knowledge，能回答各种问题，也叫世界模型。

做决策的人更关注一个预测未来状态的模型，而且预测过程受条件控制，这个条件一般就是 action。简单说，它根据过去的历史和所做的 action 预测未来。

世界模型变热，和 Sora 这样的视频生成技术有关。OpenAI 当时说 Video generation models as world simulators，也就是模型用不同 text 控制未来画面，这个 text 也可以看作一种 action，是对世界的编辑或干预。所以很多做 VideoGen（视频生成）的说自己在做世界模型。

但真正对决策有用，光用 text 控制是不够的。就像机器人输出的是 action，游戏角色输出动作或技能，自动驾驶输出自车轨迹（Ego-vehicle Trajectory，自动驾驶系统对本车未来运动路径的预测或规划）。

晚点：你刚刚说的 action，包括文本指令、车的轨迹、机器人动作。如果从 AI 或计算机科学角度，更准确描述，action 是什么？

高深远：action 就是对世界的一个干预。世界状态可以是画面或其他表示。action 输入之后，会对这个世界产生影响。

晚点：那 action 的主体是不是要区分？比如车和机器人在世界里是主体，但视频生成，用户输入文本更像 “上帝视角”，这该怎么区分？

高深远：构建决策智能体时，一般只关心自身 action。比如具身智能的一个本体，很难凭自己的意志改变别人。

世界模型可以接受对其他 agent 或者环境的编辑。比如自动驾驶或者游戏场景，Multi-agent（多智能体，多主体交互系统）或可控环境的世界模型很有用。但对通用智能体来说，目前还是只能控制自己的 action。

晚点：现在讨论的还是单个机器人，但如果未来真的像马斯克说的，有一百亿台机器人，可以互相联网通信，那它们会组成一个更复杂的世界系统。

高深远：从安全和决策质量的角度考虑，肯定能通信是更好的。长远看，Multi-agent 的世界模型确实有必要。但从通用性角度，现在还不能假设机器人部署到任何环境里都互相通信，所以自身的世界模型还是最基础的。

晚点：当年的自动驾驶路线也有类似讨论。中国曾经有车联网的创业项目，比如在路灯上装激光雷达，让环境给车信号，不完全靠车自己适应环境。但后来主流还是发展单车智能。

高深远：国内有基建优势，V2X（vehicle-to-everything，车与外界对象通信）当时很火，现在可能也还在推。但从通用性角度，还是先开发自身智能比较好。

晚点：你可以继续说世界模型的分类。

高深远：按表征来分会比较清楚。世界模型核心就是 action、condition 和要预测的 world state。world state 有不同表征。

第一种比较抽象：用几何图结构表征世界。好处是模拟高效，只需要矩阵乘法，也不需要特别多数据。但泛化性不够好，不同性质的物体可能都要专门定义粒子表征。

第二种是显式 3D 表征，比如李飞飞老师的 World Labs。把世界重建成 3D 表示，比如点云（刻画物体几何表面的离散三维坐标点集）、3D Gaussian Splatting（用 3D 高斯表示并实时渲染场景的方法），或者 occupancy（占据表示，描述空间是否被物体占用的概率模型）。用 3D 表示可以很方便地操控物体、做空间编辑，而且一致性很好，因为有绝对坐标。但决策最终依赖的还是观测，所以它要先重建 3D，再渲染成 2D 画面。这个多阶段过程不太容易 data driven（数据驱动，主要依赖数据学习规律），也通常需要 3D 标注，不是完全 end-to-end（端到端，从输入到输出由同一训练目标整体优化）优化。

第三种是 Yann LeCun 推的隐空间表征，代表是 JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）。它学习一个表征空间，比视频更紧致，易预测，计算量少，也更偏与决策相关 high level 信息。这个思路就像人在街上走，不需要精准预测每个行人的脸，只要知道大概有个人，就足够决策。但要先构建这个隐空间，而且要和其他决策模型接起来。评测和使用问题，都会带来障碍。

我自己更相信视频表征，也就是直接预测 video，输入输出都是 video。它是端到端的，可以直接用互联网视频训练。现在 video model 已经有能力预测很多细节，而细节预测本身也是采样，不一定会拖累决策。

简单说，世界模型大概分成四派：抽象表征、显式 3D 表征、隐空间表征、视频表征。目标都是用 action 控制预测，再做决策。

晚点：你最相信的视频路线，是不是包括你们做的 DreamDojo？Google 的 Genie 系列应该也算？（注：DreamDojo 是 NVIDIA GEAR 等团队开发的机器人世界模型；Genie 是 Google DeepMind 的交互式世界模型系列。）

高深远：对。视频模型可以用数据驱动方式 scale up（扩大模型、数据或算力规模）。从视频出发，模型本身已经对世界有很好的理解。

包括具身智能，我觉得通往 AGI 的思路，是从数据非常多的 domain 开始，再往数据稀缺的 domain 对齐。目前两个数据最富足的空间是语言和视频。机器人数据有 action data，但相对视频来说还是稀缺。所以从视频开始接入 action，再做机器人世界模型，是比较合理的。

如果重新构造一个新的表征空间，可能会有效率优势，但很难直接利用现有语言和视频模型的泛化能力。

晚点：你前面说 3D 表征的劣势，在于它不是端到端。那 LeCun 的 JEPA 选择的隐空间路线是端到端的吗？构建隐空间可以端到端训练吗？

高深远：从他们之前的研究脉络看，可能是端到端的，具体技术细节大家也不完全知道。问题在于它切换到了一个新的隐空间，不是现在 GPT、Gemini 或者 Sora 这些模型能直接读懂的。

如果想利用其他基模能力，就需要把这些模型往新的隐空间上对齐。但我觉得，目前语言和视频这两个表征，对通往 AGI 来说已经比较足够。

晚点：你觉得那条路线至少有一个明显限制：不能受益于现在整个行业的技术进展和红利。

高深远：对。它可能更高效、更适合决策，但这个空间构造出来以后，预测出的隐空间不能直接给语言或者视频模型看。

晚点：在英伟达 GEAR（Generalist Embodied Agent Research，NVIDIA 的具身智能研究团队），你们是都比较看好视频生成路线，还是也有很多不同方向，取决于研究员兴趣？

高深远：首先是看大家兴趣，各种有希望的路线都会尝试。我觉得视频首先是数据非常富足的模态，有很强的可扩展性。另外随着技术和芯片的优化，视觉预测的效率问题也会被逐步解决。

但隐空间可能有更高效的优势。对机器人来说，尤其要部署在真机上，效率是关键。但不管怎样，数据来源肯定还是视频。隐空间也是从视频数据中学出来的。

世界模型为何热起来？数据增多 + 策略变强了

晚点：你两三年前开始研究世界模型，明显感觉今年更火了。你觉得为什么？大家看到了它的什么价值？

高深远：最大因素是视频生成模型的发展：从一开始什么都模拟不了，到现在可以模拟非常逼真、符合物理规律的场景。

第二是数据。具身智能这几年变热后，数据供应商和开源数据集越来越多。过去大家更关注训练 policy（策略模型，根据观测选择动作的决策模型），通过模仿专家轨迹做决策；但世界模型做的是模拟器，不仅要模拟好轨迹，也要模拟差轨迹，才能得到更无偏的 action 反馈。

第三是 policy 本身发展到了一定水平。以前 policy 只能在实验室里做简单任务，这时候用不着世界模型。它的价值是帮助 policy 泛化，包括场景、task 和 action 泛化。当 policy 输出的 action 不那么乱之后，世界模型要模拟的 action 分布会变窄，更容易提供可靠反馈，进一步优化 policy。

这两者关系可以理解为：世界模型根据过去状态和 action 预测未来世界状态，policy 根据当前观测输出 action，两者可以形成循环交互。

晚点：policy 也是一个模型吗？

高深远：对，policy 可以是各种各样的模型，比如之前很主流的 policy 就是 VLA（Vision-Language-Action，视觉-语言-动作模型）。

晚点：那世界模型要部署到具身机器人上吗？

高深远：可以部署到机器人上，也可以部署在云端。

晚点：所以世界模型其实在大小上的限制比 policy 要更宽泛？比如 VLA 就要尽量做的小一点，因为要跑在端侧，而世界模型可以在端侧，也可以在云端。

高深远：VLA 也可以部署在云端，主要看部署环境。如果网络很好，policy 和世界模型都可以在云端。

晚点：GEAR 发布了 DreamDojo、DreamZero 之后，国内很多文章说你们提出了新的范式，叫 WAM（World Action Model，世界动作模型）。WAM 和 VLA 是对等的吗？WAM 是策略还是世界模型？

高深远：DreamDojo 和 DreamZero 都可以称为世界模型，但功能不一样。

WAM 输入是 text，也就是任务指令，输出未来视频和 action。严格说，WAM 不是纯粹的世界模拟器，它其实也是一个 policy，和 VLA 在功能定位上接近。不同的是，VLA 只输出 action，而 WAM 还输出未来 world state。

就像人做决策时有很多层次的 action space（动作空间），可以在文本空间完成。如果把文本也看作一种 action，WAM 接收文本，并模拟它对应的未来世界状态，从这个意义上说，它也是世界模型。

晚点：所以它是同时输出机器人的轨迹和动作，也用文本方式输出世界状态？

高深远：对。WAM 相比世界模型，多了 action 预测功能；相比 VLA，多了视频预测功能。它既具备 high level action planning 下的世界模型功能，也具备 VLA 的功能。但平时我们会把它当作 policy 来用。

晚点：如果把它作为 policy 放到机器人上用，还需要另一个世界模型给它状态吗？

高深远：对，你可以把 WAM 当作 policy，用它输出 action，再接给 DreamDojo 或其他更常见意义上的世界模型。

世界模型的作用，是你给它 action，它预测未来状态。这样在执行 action 之前，不需要真的和现实世界交互，就能看到不同 action 的后果，就可以先搜索再决策。人脑里也在做这件事，只是很快。

实际应用里，可以用 DreamZero、WAM 对不同文本步骤做预测，选出最佳方案。确定子任务后，把更 low level 的动作轨迹交给 DreamDojo，继续优化接近速度、抓取角度、力度等细节，最终做出更好的决策。

晚点：你刚才讲了世界模型最近进展快的原因，包括视频生成、数据、策略变复杂。长期来看，它的价值是不是也来自一种仿生思路：提前预测后果，让智能体更高效、更能自主泛化？

高深远：对，更泛化，也更安全。人做决策时，本来就会先在脑子里想象后果。没有世界模型，决策就像不管后果，先做了再说；有了世界模型，就可以在做之前知道后果，决策更安全。

它还可以用于评测。具身智能现在评测很难，也不够公平。每次都要真机部署，还要有人看着；如果模型很烂，可能会损坏设备。不公平在于现实环境很难每次完全一致，光照、物体位置、传感器状态都会变化。

但如果在世界模型里评测 policy，就能反复把场景重置到同一状态，更高效也更公平，本质上是用算力替代真实实验成本。

另外，世界模型还能生成数据。过去要遥控真实机器人采集 action 数据，再训练 policy；DreamDojo 有一个例子，是把世界模型做到实时，就可以直接遥操虚拟机器人，生成训练数据。

晚点：遥操过程中还是要带传感器或设备吧？

高深远：设备可能还是需要的。不过随着硬件发展，遥操设备也会越来越简单。然后可以让 policy 跑在世界模型里，人用遥操设备对它做干预，得到纠正后的轨迹，再提升 policy。

除了这些，世界模型还能做强化学习，在里面试错非常安全。现在机器人没有办法像阿尔法狗那样进步的最大限制是物理时间：一天只有 24 小时，人也要上下班。但在世界模型里能并行开很多环境、快速迭代。而且如果和现实世界之间没有 gap，跑一段时间后可能涌现出新能力。当然现在还远没到这个阶段，但这是很有前景的方向。

世界模型、Policy 和 Agent 的自进化循环

晚点：哈萨比斯（Demis Hassabis，Google DeepMind 联合创始人兼 CEO）之前也讲过，DeepMind 的 Genie 和 SIMA（Scalable Instructable Multiworld Agent，可按自然语言指令在多种 3D 虚拟环境中行动的智能体）有一个很有前景的应用，就是在模拟世界里做实验、搞科学，甚至加速可控核聚变这类科研。但有个问题：如果世界模型真能模拟到那个程度，AGI 可能已经实现了，那具身智能是不是也该在那之前就实现了？

高深远：我比较认同哈萨比斯的思路：一个 video space 里的世界模型，加一个通用智能体，比如 SIMA，也是类似于 VLM（Vision-Language Model，视觉语言模型）的架构，两者组成自我进化的循环。

现在确实离那个阶段还很远，但不代表必须完全成熟后才能开始做循环。它是循环上升的过程。现在主要有三个部分：一个强的 VLM 链接循环，定义 agent 做什么任务，并评判世界模型预测出的 world state 质量；agent 根据任务提出 action；世界模型根据 action 想象未来，再交给 agent 做评测。这个循环转起来后，就可以实现自进化。

当前各个组件的泛化能力还不够，所以容易出现级联误差：agent 不能稳定给出高质量反馈，policy 不能在各种场景下可靠输出 action，世界模型也不能稳定预测真实未来。但现在大家都在往泛化性推进，到未来某个点，我觉得可能就发生在今年，比如一旦误差累计到可接受程度，policy 就会开始提升，整个循环反而会越来越简单。

过去 policy 太差，机器人可能打坏东西，甚至损坏机械臂。但如果它达到一定水平，就能在新环境里采集数据，即使数据质量不高，但因为是 policy 自己产生的，所以这是个自动化过程。

这些 data 又能训练世界模型，提升它的物理理解和 action 控制能力，这两点决定了世界模型的世界预测能力，然后再反过来优化 policy。这样循环下去，policy 输出的动作分布会越来越集中合理，世界模型要模拟的范围更小，反馈也更准确，整个系统就会进入正向迭代。

晚点：你说 policy、世界模型和通用 agent 这三个要素，泛化到一定程度后循环跑通，就会进入更快的自进化过程。你还说可能 2026 年某个时间会发生。现在已经 4 月了，你们是看到什么迹象了吗？

高深远：很多 paper 也在讨论。在一些简单任务上，已经把这个循环连起来了。

这也是我觉得没必要重新构造新表征空间的原因。现在 agent 基于 VLM，世界模型基于 video，policy 比如 DreamZero 也可以基于 video backbone（视频骨干模型），它们都从数据最丰富的模态出发，更容易接起来。agent 和 policy 的交互是语言，policy 和世界模型之间是 action，世界模型和 agent 之间是 video。这几个模态都相对富足，也能利用现有基模能力，所以很有前景。

晚点：Google 那边如果对应这个循环，视觉模型是 Genie，agent 是 SIMA。那英伟达的公开成果里可以怎么对应？

高深远：英伟达这边是 Cosmos（NVIDIA 面向物理 AI 的世界基础模型平台）在做基模，它偏向 VLM 和 video foundation model（视频基础模型）。它本身不一定直接负责决策，也不一定天然带 action 控制，更多是通过后训练再获得 action 的输入输出。

Google DeepMind 的 Genie 3（实时交互式世界模型）是键盘控制，理论上这套流程也能用到机器人上。但他们很喜欢从游戏出发，好处是数据可以无限造，验证也更方便；机器人数据从产生阶段就受物理时间限制。

晚点：那 DreamDojo 相当于 SIMA，还是 Genie 3？

高深远：DreamDojo 更像 Genie 3。SIMA 相当于一个 policy，控制游戏里的 agent。我们的是物理世界的 policy，比如 VLA 或 DreamZero，控制的是机器人。

晚点：在具身智能的语境里，世界模型就是 DreamDojo，策略是 DreamZero，机器人就相当于是 agent。

高深远：对，在这个循环里，agent 起到连接循环的作用，可以是 Gemini 这类 VLM。它输出文本，也给 world state 打分。如果 world state 是 video，就能直接用现有基模来处理。

泛化瓶颈、测评痛点、Google、NV、OpenAI 等团队进展

晚点：你觉得现在世界模型探索里比较大的瓶颈是什么？

高深远：现在还是早期，有三个方向值得做：泛化能力、长程稳定性和效率。后两点也重要，但我觉得泛化最关键，它决定世界模型应用的上限。

泛化首先是物理理解的泛化，就是希望世界模型即使在机器人数据没覆盖到的场景和物体上，也能模拟得很好，帮助 policy 提升泛化能力。否则 policy 还是只能在见过的物体和场景里进步。

另一个是 action 泛化。世界模型应该尽可能公平地模拟所有 action，而不只是专家动作。过去几年 policy 积累的数据多是专家数据：抓东西就是抓成功。这对 policy 合理，但对世界模型不应该对动作有偏好。你给它一个抖的动作，它就应该模拟抖；给它一个抓偏的动作，它就应该模拟抓偏。否则给它一个差 action，它可能仍然抓成功。这就没反馈区分度。

这不是最终瓶颈，因为 policy 达到一定水平后，可以自动采集一部分自己可能输出的动作数据。世界模型只需要模拟 policy 可能输出的动作空间。但现阶段 policy 还不够强，所以世界模型仍然需要无偏地模拟不同 action。

晚点：你提到三个方向：泛化、长程稳定性和效率。后两个是在泛化之后自然解决，还是业界也在努力？

高深远：长程稳定性与效率和视频生成的需求是对齐的。现在视频生成要生成电影了，行业自然会解决误差累积和效率问题。它们不是限制 policy 的主要瓶颈，但长程仍然很重要。

现在的短程任务，比如 1.5 秒左右的瞬时决策，世界模型模拟一下就能给反馈。但未来通用机器人要做长程任务，需要世界模型有长程模拟和记忆能力，有助于长程 policy 训练。不过现在还没到那个阶段。

晚点：可以举一个长程任务的例子吗？

高深远：比如你把一个东西放到柜子里，关上门。如果模型没有长程记忆，关上之后可能就忘了东西在哪里，再打开时，东西在不在就变成随机猜。

现在的视觉模型，包括 DreamDojo，都还没有这种长程记忆。这对决策很灾难，因为 policy 得不到可靠的世界预测，收到的都是随机信号。

晚点：如果未来家庭服务是具身智能最大的场景，机器人要像管家一样知道家里的东西放在哪里。这种长时记忆是靠机器人自己记，还是把家里的信息直接告诉它？

高深远：这方面具身智能的 research 没那么关注。首先这种场景更适合在文本空间做，用视频记冗余度太高；它更多是大模型在解决的问题，技术上也共通。

具身领域更关注任务确定后，怎么把它变成成功率很高的 action。

晚点：那在这三个方向之外，世界模型怎么测评？有比较公认的 Benchmark 吗？前面说世界模型可以测评具身智能模型，但反过来，怎么测世界模型？

高深远：这是世界模型最大的痛点。你读论文会发现，几乎每篇都自己搞一个 Benchmark，而且通常只比少数几个模型。主要是机器人决策世界模型很难 zero-shot（零样本，指未经特定训练直接适配新任务或新对象）到不同机器人上。

世界模型输入 action，预测未来 state。但不同机器人自由度不同，action space 也不一样。所以世界模型往往一一对应机器人本体。语言模型和视频生成模型输入输出空间天然统一，容易有公开 Benchmark。但机器人领域很难把模型放在一起公平评测。

所以要么有一个很强的世界模型，掌握所有的 action space，要么所有团队收敛到同一种机器人。否则大家只能把别人的世界模型拿过来，在自己的机器人本体和 action space 上重新训一遍，成本很高。

晚点：那业界怎么判断谁做得好？

高深远：没有直接指标。只能拿过来试。即使大家用同一种机器人，action space 一样，但相机装不同位置，训出来的世界模型也会不同。

晚点：这对投资人来说就更难判断了。

高深远：对。现在就是比较早期。

晚点：那你可以讲讲业界做得比较好的方向或团队吗？

高深远：学界很多组都在做，因为这个领域还早。大厂里比较明确做世界模型的有 NVIDIA；Yann LeCun 的 AMI（Advanced Machine Intelligence，杨立昆在 Meta 时领导的高级机器智能路线）做的是面向决策的隐空间世界模型；李飞飞老师的 World Labs 更偏显式 3D 表征，对游戏和自动驾驶有优势。

还有英国自动驾驶公司 Wayve，做过 GAIA 系列世界模型；还有一个大佬叫 Anthony Hu，他加入的创业公司 General Intuition 也在做游戏世界模型，游戏的优势是能突破物理时间限制、快速积累数据，而且游戏里的很多 3D 知识对训练决策智能体有用。我们之前也做过 NitroGen（面向通用游戏智能体的视觉动作基础模型），验证了游戏和现实决策可以共用一套 policy 架构。

我自己也比较关注 Google DeepMind，他们的思路很典型：把 agent、VLA 和世界模型都往语言、视频这些数据富足的模态上对齐，继承模态的泛化能力，再形成自我进化循环，并先在游戏里验证。

晚点：OpenAI 和 Anthropic 在探索世界模型、agent 和 policy 自进化上做了什么吗？

高深远：Anthropic 动作比较少。OpenAI 很早做过 robotics，也出过不少 demo，但 GPT 成为主线后，这个方向一度没那么被推进。最近又明显重新加码了，尤其是把 Sora 团队并到 robotics lab 之后，应该是想在世界模型上做一些布局。

晚点：你觉得 Anthropic 不做这个方向会是一个 miss 吗？

高深远：不会。首先它能统治虚拟世界里的 agent 已经很强了。做 physical AGI（具备物理世界操作能力的通用人工智能）有两条路线：一条是直接做机器人数据、世界模型和 policy；另一条是先把语言、视频这些基模做强，再把 robotics 作为最后一步接上。Anthropic 更像后者。我们做 DreamZero，也是因为发现 video 和 action 的对齐很强，所以这条路也完全可能走通。

晚点：在你最看好的 video-based 世界模型路线里，谁最有可能做成？我们具身季报的嘉宾 Peter 陈哲觉得关键是谁能把视频生成模型做好，而这件事很吃数据和算力，所以现在更占优的，还是 Google、字节、快手这类有视频数据优势的公司。

高深远：基座模型肯定要足够强。但现在视频生成基模也开始分叉了，有些在往电影级生成走，这种分布不一定最适合 robotics。总体上，赢家还是得先有强基模。NVIDIA 走的是开源路线，创业公司也可以直接基于这些开源模型去做。

“在学界继续做自动驾驶世界模型没意思了”

晚点：从 24 年到 26 年，从上海 AI Lab 到 GEAR，你这两年一直都在做世界模型，这两年的研究历程是怎样的？

高深远：我大概从 2023 年下半年开始做世界模型，一开始在自动驾驶。最早做 Multi-agent 感知，但这类数据稀缺，所以先用生成技术做数据生成。后来看到特斯拉出了一个世界模型，就转去做单 agent 的自动驾驶世界模型了，因为这条路线更通用。

当时学界主要依赖小规模公开数据集，但 video 世界模型的关键是吃下大量视频、靠数据驱动提升泛化。所以我们比较早从 youtube 收集自动驾驶视频，做了 GenAD（把自动驾驶建模为生成式预测与规划问题的研究），训练更泛化的视觉模型；后来的 Vista（强调高保真预测和动作可控性的自动驾驶世界模型）也基于视频数据集继续提升生成质量和 action control。

后来我觉得在学界继续做空间有限，因为很多问题，比如视频获取和标注，对车企来说更容易。但我们当时从 youtube 找视频训练模型，算是比较早也比较大胆。

晚点：特斯拉那个世界模型是在你们之前发的吧？它算业界比较早的。

高深远：对，它非常有前瞻性。自动驾驶领域里，我感觉学术界很多时候是走在特斯拉后面的。

晚点：你是 2025 年加入 GEAR 的吗？当时 GEAR 当时也比较看重世界模型吗？

高深远：我 2024 年就和他们聊过，2025 年决定去。GEAR 当时确实比较看重世界模型，而且很多方向和我之前的研究很契合。

我之前一个工作叫 AdaWorld（用 latent action 从无标注视频训练可适配世界模型的方法），用的是 latent action（潜在动作，用隐藏表征表示视频里的动作变化）。GEAR 的 Joel Jang（前 GEAR 研究科学家，近期已离职创业）、Seonghyeon Ye（ DreamZero 作者之一、KAIST AI 博士）也用过 latent action 训练 policy。还有 Jim Fan（GEAR 联合负责人）和 Joel 的研究品味跟我也比较契合，所以就想合作。

晚点：你们是怎么接触上的？

高深远：2024 年开学术会议时我就找过 Jim Fan。当时我还是博二，想多发一些一作论文，所以没有直接参加大项目。后来也是开会逛论文海报时碰到了 Yuke Zhu（GEAR 联合负责人、德克萨斯大学奥斯汀分校副教授），就发邮件约第二天聊。聊完发现他对我的背景也很感兴趣，我之前面试也过了，所以后面就直接继续合作了。

晚点：具体到这次的 DreamDojo、DreamZero，是谁发起的？你们想解决什么问题？

高深远：GEAR 一条主线在做 policy，比如 GR00T N1、N2（英伟达的通用机器人策略模型系列）；另一条是 GR00T-Dreams（NVIDIA 用 Cosmos 从单张图和语言指令生成合成轨迹数据），最早是 Joel Jang 发起的，之前也做过 DreamGen（用视频世界模型生成机器人训练数据的研究），用 video model 做 backbone、policy。

这个顺序上是先用 video model 做 WAM，把 policy 的泛化性先做起来；后面是 DreamDojo 这种真正作为环境的世界模型，去支撑更完整的自我进化循环。前者可能两三年内能成熟，后者可能需要 5 年左右，才会真正成为一个大的爆点。

晚点：但你前面说 policy、世界模型、agent 这个循环今年就可能初步跑通。为什么大的爆点又是 5 年后？

高深远：今年可能是在单个任务上初步跑通，让业内能看到迹象。但要让 action-conditioned 世界模型和 reward model（奖励模型，评估动作或状态质量以指导策略优化的模型）在任何场景下都能很好模拟和泛化，还需要数据，也需要视频基座模型继续进步。

晚点：你做的是动作控制的视觉模型。这个方向是你加入前 GEAR 就在做，还是你去了之后形成的新方向？

高深远：他们本来就在往这个方向想，我也一直觉得 policy 之后需要一个世界模拟器。也是在这个时间点，policy 已经发展到一定水平了，世界模型开始有机会真正和它结合起来做一些事。

Egocentric 扩数据源、Latent Action 跨本体和 DreamDojo 的测评

晚点：前面聊下来，我理解 DreamDojo 更像模拟器式的世界模型，DreamZero 更像改进过的策略，只是也带有世界状态，所以你们叫它世界动作模型（WAM）。具体讲讲 DreamDojo：它想解决什么问题，现在到什么程度了？

高深远：DreamDojo 想做的是比较通用的世界模型 pre-train。目标是先训练出一个可以开源的世界模型，让别人微调后就能用起来。

过去世界模型大多只在单一数据集、有限场景和物体上训练，我们想验证能不能把 human egocentric video（人类第一视角视频）里的泛化能力迁移到机器人世界模型上，并保留下来。实验分析证明，这是可行的，相当于给后续世界模型的研发提供了一个起点。

另一个进展是实时性，而且兼顾泛化性。这样它既能接遥操设备实时控制，也能在 policy 部署时更快预测不同 action 的后果，并用世界模型做搜索，提升模型性能。

晚点：你说能把 egocentric video 里的知识迁移到机器人上，之前的难点在哪？

高深远：主要还是数据不够，因为泛化能力要到一定数据量才能体现出来。数据少的时候，一方面有人和机器人的本体差异，另一方面物理规律的覆盖也不够。数据量上来之后，模型才会学到更通用的 knowledge，才能更好迁移到机器人上。

晚点：那你们这次用了接近 4.5 万小时数据，这个量级是怎么确定的？

高深远：首先我们做内部验证，先确认方法是通的。之后假设不知道未来用户会在哪些场景里用，所以我们就想尽可能把数据做大、覆盖更多场景。做到 4.4 万小时，基本就是我们当时训练最终模型时能用上的数据都用上了。其实我们还没有很好地调数据分布，如果进一步调整，迁移能力可能会更好。

晚点：处理这个量级的数据难吗？

高深远：世界模型的好处就是它可以吃下任何数据，对数据质量和标注的要求没那么高，即使不做任何分布处理也都是合理的，只要有 action 就行。

我们还有一个工作叫 EgoScale（用大规模第一视角视频训练机器人策略的研究），也是基于这批数据来训练 policy，但会做一些过滤。因为 policy 学的是最优决策，所以要做筛选，对数据质量也有要求。

晚点：那第三人称视频什么时候可以直接用来训练世界模型？它的数据量更大、也更多样。

高深远：第三人称视频也能提供物理规律，只是和机器人最终使用的视角差得更远。

现在的流程是先从 Cosmos 这样的视频基座模型出发，再做第一视角视频的预训练，最后在机器人数据上微调。那其实在 Cosmos 的预训练阶段已经用了这类数据。我们也发现，如果拿掉 Cosmos 这一步，直接开始预训练，效果会变差。这说明第三人称数据放在更早的预训练阶段是有用的。

晚点：那第三人称视频数据有必要用到第二个预训练阶段吗？我理解这里的难点是，第三人称视频里的动作很难直接迁移到机器人本体上。但如果能解决这个问题，数据规模就可以大幅扩大，互联网视频也能被利用起来。

高深远：我觉得可以试。直觉上，两个预训练阶段甚至可以合并。类似 VLA 的训练中，有些工作会把机器人数据和视觉问答数据一起训，让模型既能预测 action，也保留通用视觉知识。这对 general knowledge 的保持可能有帮助。然后目前的困难主要是计算量的问题，假如我们有足够的资源，完全可以去试。

晚点：那应该会有人这么做。

高深远：另外，作为一篇 research paper，我们更关注提出一个清晰的问题，并用有说服力的实验设计解决它。所以没有继续扩大训练范围。

晚点：你们 DreamDojo 里用了 latent action，所以不用打动作标签。这个实现难吗？它是主流方法，还是比较新的方法？

高深远：这方向我算是比较早在推的人之一。DreamDojo 某种程度上就是把我之前 AdaWorld 里验证过的思路，scale up 到机器人和人类数据上：用 latent action 给无标签视频打上 action 标签，再去预训练世界模型。它最大的好处是简单、通用，不太受本体和视角限制，有多少 video 就能利用多少 video，不会损失视频数据的扩展性。

但我不确定它是不是最终路线。因为现在很多数据都有高精度标签，如果跨本体又没那么成问题，那 latent action 的必要性就会下降。它更像是一种能高效利用无标注视频的办法。

晚点：跨本体这件事对人或动物来说好像很自然。比如人失去双臂后，可以用脚做很精细的操作。人本身似乎有适应新构形的能力。

高深远：对。latent action 是一种有噪声的 action 表示，不能很好描述每个具体本体，但相对所有本体来说，它是一个比较好的媒介。从它出发去映射到一个新本体，一般会更近。比如人失去双手，也需要重新适应。但如果先有 latent action 这样的先验，再迁移到新的 action space，可能是更自然、更通用的起点。

但如果数据和本体都没特别大障碍的话，就没有必要再到 latent action 去绕一圈。

晚点：那肯定不用标签会更省事，能用的数据也更多。

高深远：但现在有标签数据的增长也很快。

晚点：是因为现在打标签很便宜吗？

高深远：对，以前采机器人数据，是实验室里摆桌子、摆物体，采完重置，效率很低。

但现在采集形式已经变了。比如人在做家务或工作时，只要带一些便携外设，就能顺带拿到比较高精度的标签，而且不影响本来的工作。再加上合成数据本身也能自带标签，所以整体上高质量带标注数据会越来越容易拿到。

晚点：DreamDojo 对应的数据集 DreamDojo-HV 有计划开放到开源社区吗？

高深远：会开源，但我们还想基于这套数据继续做一些研究，应该会随着后续成果再逐步开放。

晚点：DreamDojo 这次用的是傅利叶的 GR-1。本体选择上，现在大家一般是怎么考虑的？我之前了解，宇树 G1 好像用得更多。

高深远：这个没有特别考量。主要是我们之前有一些傅利叶 GR-1 的数据，在这个基础上构造测试集更方便。

晚点：我好奇的是，以后本体可能会变得比较统一，这也是一个技术和商业机会。研究机构选择本体时，一般会考虑哪些因素？

高深远：首先会考虑故障率、易用性，以及有多少人在用。然后是它和我们 cross-embodiment data（跨本体数据，覆盖不同身体结构并用于跨本体迁移训练的数据）的接近程度。比如我们有人类数据，那最好它是带灵巧手的本体。

晚点：关于 DreamDojo 的评估方式，前面说过现在没有公开 Benchmark，所以你们自己做了 6 个 Benchmark。你们主要考察哪些能力？

高深远：第一，预测未来是否真实、物理上是否合理；第二，被 action 的控制能力。

我们内部先用 GR-1 做了一批测试，初步看到迁移能力后，又用开源第一视角数据集 EgoDex（用于评测灵巧操作能力的开源第一视角数据集），验证它在更多物体上的迁移是否成立。确认之后，再继续加入更多人类数据，覆盖更多环境和物体。虽然这次我们主要用 GR-1 做测试本体，但目标一直是做更通用的预训练权重给整个社区。

晚点：所以它是跨本体的对吧？

高深远：对，我们也提供了其他本体的实验结果。这就是 latent action 的好处：比如是从人类视频中学习，但迁移到一个假爪上，也是可以的。

晚点：你们测试里很多是泛化测试，也就是分布外数据。这个具体范围是什么？因为最开始有 Cosmos 这个视频基模，它按理说已经见过很多东西了。

高深远：问题在于，一个基模被改造成 action control 的世界模型后，可能会损失部分泛化能力。我们加入 human pre-train（人类视频预训练）和 latent action，就是为了让它在新环境下仍具备较好的泛化能力。

这里说的新环境，指的是机器人数据里没有见过的环境。整个流程可以分成三阶段：Cosmos 训练、人类数据训练、机器人数据训练。只要机器人数据里没见过的新物体和新环境，我们就叫它分布外。

晚点：那你们测过人类数据里也没见过的新环境吗？它能做吗？

高深远：我们 4.4 万小时的人类数据量非常大，测试集里的物体大概率都出现过，或者至少有类似的。

某种程度上，语言模型和视频模型发展到后面，很多原来意义上的分布外问题，都会变成分布内插值。对机器人数据来说，那些场景还是分布外；但对人类互联网视频来说都是分布内。结果是，人类视频预训练确实能明显提升模型在机器人分布外场景中的泛化能力。

晚点：你们最后是用成功率、稳定性这些指标来考察吗？

高深远：我们也会看下游表现。世界模型能不能提升 policy 的成功率，本身就能反映它的可靠性。比如让 policy 提出几个 action，再由世界模型选出最优的那个去执行；如果世界模型足够好，它应该每次都选到最好的 action，如果它很差，加不加它其实区别不大。

晚点：也就是说，这是一个控制变量，加上世界模型反馈后，policy 的成功率等指标应该提升。

高深远：对。世界模型最终还是为了提升 policy，所以它的反馈好不好，最终要结合 policy 的表现来看。中间也可以看一些指标，比如它是否跟随输入 action、预测出来的未来是否足够真实。

自己不掌握视频基模，能做出有竞争力的世界模型吗？

晚点：接下来你们准备怎么继续发展 DreamDojo？

高深远：具体细节先不展开了。长远看，最重要的还是把自我进化的循环建起来。有人觉得只要一直做 policy 就够了，但我还是认为世界模型很有必要，因为它能把 policy 和 agent 接成闭环。

这个循环一旦跑起来，就有机会突破物理时间限制。现在 physical AI 难做，一个重要原因就是它还没有像 language agent 或 AlphaGo 那样可持续迭代的虚拟世界。如果后面能有这样的世界，具身智能就可以在虚拟环境里持续试错和进化。

晚点：那你们的这个优化思路，是不是会需要和 GEAR 里做策略的团队，如 DreamZero 那边，非常紧密地合作？而且理论上像 SIMA、VLA 这些其他 policy 也都可以接进来。

高深远：对，我们本来就是比较小的团队，人员也有交叉。而且这个循环本身的接口是通用的，只要 action、文本和 video 这几个模态能对齐，理论上都可以接进来。

晚点：你刚刚说有人相信只做策略就行。为什么会这么想？

高深远：我理解他们主要是觉得，policy 主要学专家数据，但世界模型还要模拟各种非专家 action 的后果，难度更高。不过我觉得，世界模型不需要一开始就做到完美，只要它在一些场景里能提供有效反馈，就可以开始帮助 policy，然后就能循环上升。

晚点：如果你相信的路线变得更主流，具身智能创业公司，或者专门做世界模型的创业公司，还有多大机会参与？世界模型听起来很耗资源，尤其视频数据和算力，是不是只有大公司才有机会？

高深远：我觉得也没有那么绝望。随着数据供应商的竞争、GPU 和模型效率提升，这件事会变成更多人都能参与的方向，当然最后可能还是少数几家胜出。

这循环里有很多组件，不只是世界模型本身，还包括 reward agent（奖励智能体，负责评估策略行为质量并提供优化信号的模块）、policy 和具体场景验证。创业公司可以先在自己擅长的 domain 里，小规模地把路线验证通；只要方向对、验证得快，靠 scaling law 后面仍然有机会推起来。

晚点：Cosmos 是英伟达自己的视频生成模型。你们基于它做人类数据预训练，再做机器人数据。如果这个环节分开，比如创业公司不掌握视频生成基模，只做你们后面的流程，会影响效果吗？

高深远：有影响。基座模型如果自己掌握，就更了解它的预训练分布。像 Cosmos 这种偏 physical AI 的模型，对机器人和自动驾驶视频会更合适，在 infra 上也对后续训练有更多支持。创业公司当然可以跳过这一步，只做人类数据和机器人数据训练，成本会低很多；但如果拿不到最强的预训练模型，整体节奏和竞争力还是会受影响。

晚点：现在 DreamDojo 的速度会是问题吗？还是 DreamZero 才有这个问题？

高深远：我觉得都不是大问题。一方面还有很多工程优化空间，另一方面 video model 的提速本来就是整个视频生成领域都在推进的主线，不只是 robotics 在关心。所以它和大方向是一致的，后面大概率会持续被解决。

晚点：你博士毕业之后计划去英伟达。为什么做这个选择？

高深远：我选择去工业界，是因为很多路线已经看到成功迹象了，接下来更重要的是在更大规模上把它做出来。学校更适合原创性探索，但现阶段通往 physical AGI 已经有不少成熟路线，关键更在于数据、算力、训练目标和团队能否对齐。

晚点：接下来你自己最想探索的方向是什么？

高深远：还是 DreamDojo 这类 action-conditioned 世界模型。我的最终目标是把自我进化的循环真正跑起来，而现在还有一些泛化性的瓶颈。现在很多工作还停留在单任务验证，但既然用了语言和视频这些基模，核心价值就不该只是把单任务跑通，而是推向更多任务。所以接下来我最关注的，还是世界模型和 World Action Model 的泛化性上限。

题图来源：《盗梦空间》