世界模型第一次有了「存档」！VAST发布Project Eden|eden|世界模型|新论文|智能体|轨迹

编辑 | 陈陈

过去一年，世界模型成了 AI 圈最热的词之一。

越来越多机构开始宣称自家模型能够模拟世界，用户输入一句话，模型就能生成一段连续视频；给定一个动作或镜头，画面里的人物、场景和物体也能随之运动。在很多人看来，AI 似乎已经具备了某种创造世界的能力。

但仔细想想，生成一段看起来连贯的视频，真的等于构建了一个世界吗？

今天很多所谓世界模型，本质上仍然更接近视频预测器。它们擅长根据历史画面推测下一帧，根据输入动作生成一小段视觉结果，但世界状态本身并没有被独立维护。换句话说，模型看到的是一串像素，而不是一个可以长期存在、被多人同时进入、可以被动作持续改变的世界。

这就带来一个根本性局限：当一个物体离开镜头，它在模型内部是否还存在？当用户转身再回来，场景是否还能保持一致？当多个玩家从不同视角进入同一个空间，他们看到的是否真的是同一个世界……

如果这些问题不能解决，这些所谓的世界模型，仍然只是像世界的视频，而不是真正的世界。

正是在这一判断之上，全球领先的通用人工智能公司 VAST，给出了一条在架构层面与主流不同的技术路线。

不同于业内常见的动作条件视频生成，也不同于静态 3D 场景生成，Project Eden选择了一条更底层的技术路线：将世界的状态推演与视觉呈现进行原生解耦。它不是让模型继续在像素层面预测下一帧，而是先维护一个可持续演化的底层世界状态，再根据用户视角、动作和交互需求，把这个世界渲染成具体画面。

这一突破使它成为全球首个允许对世界状态进行自主维护与确定性控制的世界模型，并自然解锁了环境长程持久、场景自由复用、多人并发交互等颠覆性能力。

我们先看几个 demo，直观感受一下。

下面这个视频不仅完美理解了「暴雨、巨浪与直升机交互」的复杂物理规律，用户还能通过屏幕上的虚拟按键，实时、连续且稳定地预测并生成下一帧的 3D 时空状态。

这段赛车 Demo 同样惊艳，Project Eden 用第一人称视角呈现了一场极其丝滑的 AI 赛车体验：玩家实时操控，世界实时响应，赛道、速度感和镜头运动连续衔接，把「生成式世界」里的速度与激情展现得非常直观。

而在这个视频里，生成的画面完美融合了人物动画、刚体（木船）以及流体（水面）之间的交互，展现了 Project Eden 在构建高沉浸感、可交互虚拟世界方面的恐怖潜力。

在发布最新技术的同时，VAST 在融资方面也迎来好消息，该公司宣布完成 A + 及 A++ 两轮融资，合计近 2 亿美元。这是 VAST 继今年 3 月融资后，时隔两月再度获得资本加持。

世界模型不能只是「会动的视频」

要理解 Project Eden 的独特性，我们首先需要看清当前行业的主流路径及其内在局限。当下被广泛冠以世界模型之名的技术方案，大致可以分为两类。

第一类是动作条件视频生成。

这类模型通常根据文本、图像、动作指令或相机轨迹，生成一段连续视频。优势是视觉效果直观，生成结果容易被用户理解，也能快速展示出一定的交互感。

但问题在于，这类模型本质上仍然是对 2D 像素轨迹的预测。世界中发生了什么、物体在哪里、状态如何变化，这些信息往往被隐式压缩在最近几帧画面里。

一旦物体离开相机视野，模型并没有一个独立的「世界状态」去保存它。等镜头重新转回来时，模型只能根据历史上下文重新生成，或者说重新「幻想」这个物体应该是什么样子、在哪里、处于什么状态。

这也是为什么很多视频生成模型在短时间内看起来很连贯，但一旦拉长时间、切换视角，或者引入复杂交互，就容易出现物体消失、结构变形、前后逻辑不一致等问题。

第二类是静态 3D 场景生成。

这类模型能够生成可供游览的三维空间，相比单目视频生成，它们确实更接近「空间」本身。但如果只有一个静态空间，而没有时间维度、物理逻辑和状态转移机制，也很难称之为真正的世界模型。

一个真正有用的世界，不只是能被看见，还应该能被改变、持续运行、支持多个用户或多个智能体同时进入。

因此，VAST 对世界模型的判断很明确：一套合格的通用世界模型，至少要同时解决两个核心问题。

第一，世界当下的客观状态是什么；
第二，这个状态如何随着动作、时间和交互持续演化。

只有同时具备这两点，世界模型才可能从「生成一段内容」走向「生成一个可交互环境」。

Project Eden：一次架构级的重新定义

Project Eden 最关键的架构选择，是将底层状态推演与视觉呈现进行原生解耦。

在传统视频生成模型中，状态和画面是高度耦合的。模型看到的是像素，预测的也是像素。世界中有什么、物体如何变化、用户动作产生了什么影响，这些都隐含在视频帧序列里。

Project Eden 的思路则不同：他们不是把空间、事件、视角和视觉外观全部塞进像素历史里，而是把「世界本身」和「世界看起来的样子」进行了分拆。

第一层是结构化状态层，也就是这套系统的真正地基。

该层是一个跨时间持续存在、可以进行动作更新、可被任意相机位置查询的全局结构化表征。它并非庞大的 4D 点云（那会带来不可接受的计算成本），而是一种紧凑的、兼顾效率与语义丰富性的隐式表征。这一层负责回答「世界里有什么、发生了什么」，它是世界的客观基底，独立于任何观察者的视角而存在。

第二层是条件接口层，作为状态与渲染之间的转换枢纽。

这一层的功能是将底层的全局世界状态，按照特定相机位置和观察视角，转化为适合生成任务使用的局部条件约束，包括语义信息、几何线索、局部事件变化等中间表征。所有视角的渲染都从同一个底层状态中提取条件，这从物理机制上保证了多视角之间的一致性：不同玩家看到的是同一个世界的不同窗口，而非各自独立的像素历史。

第三层是生成式渲染层，在底层状态与中间约束的双重指引下，负责生成精细化的视觉画面。

最上层的渲染模型不再需要承担猜测画面结构的责任，因为结构信息已经由底层状态提供。渲染器专注于自己真正擅长的部分：在给定结构约束的前提下，补全纹理、光照、材质和高频的局部动态细节，生成高保真的视觉画面。

这三层架构改变了世界模型的基本组织方式。状态不再依附于画面，而是作为一个稳定、可查询、可演化的底座独立存在；渲染也不再承担全部逻辑推演，而是根据当前状态、视角和动作条件按需生成画面。

因此，Project Eden 不是在传统视频生成路径上继续预测下一帧，而是把问题改写为：先推演世界下一刻的状态，再从这个状态中生成用户此刻看到的画面。前者更像视频续写，后者才真正接近世界模拟。

解锁三种系统级能力：持久化、可复用、原生多智能体并发

架构的不同，最终体现在能力边界的本质差异上。Project Eden 的三层解耦架构，自然解锁了一系列传统视频生成方案无法触及的系统级能力。

Project Eden 生成的多角色协同场景

环境长程持久化，是其中最直观、也最颠覆性的一项

在 Project Eden 中，物体离开相机视野，并不意味着它从世界中消失。它依然存在于底层状态里，并继续按照世界逻辑运转。当用户转身、离开、再回来时，系统查询的是同一个底层世界状态（比如当玩家转身离开，再转回来，那棵树还在那里），而不是根据历史视频帧重新生成一个相似画面。

这意味着，世界可以拥有真正意义上的长程记忆。用户不再只是观看一段一次性的生成视频，而是进入一个会持续存在的环境。

场景自由复用与确定性控制，是第二项核心能力

传统视频生成是一次性的时间线：生成过了，历史就固定了，无法回退和分支。但在解耦架构中，底层状态是可以被读写和干预的。用户在场景中进行的破坏、建造、改变，被真实写入底层状态；后续进入同一场景的其他用户，会看到完全一致的世界状态。这不再是每次生成一段新视频，而是所有人共享同一个持续演化的世界。

例如，一个用户在场景中破坏了某个物体、移动了某个建筑、改变了某片区域的状态，这些变化会真实留存在世界里。后续进入同一场景的其他用户，也能看到一致的结果。

这也让生成内容从一次性视频，变成了可复用、可编辑、可持续运营的互动空间。

第三是原生多人和多智能体并发交互

对于传统视频世界模型来说，多玩家是一个非常困难的问题。因为每个玩家都有自己的视角、动作和画面历史，如果每一路都依赖单独的视频上下文来生成，算力成本和一致性维护都会迅速失控。

在解耦架构中，底层状态只有一份，被所有智能体共享；渲染层根据各自的位置和视角独立生成画面，计算成本从指数级变为线性级。当 N 个玩家同时在线，系统只需维护一个底层状态和 N 路渲染，而不是 N 套完全独立的生成系统。这不只是性能优化，更是商业上大规模落地的先决条件。

数据策略：3D 生成真正难啃的硬骨头

Project Eden 背后的数据构建逻辑，同样值得深究。

VAST 提出了一套原创的分层数据策略，其核心是双态对齐数据的概念：只有底层推演态（隐式结构与逻辑）与视觉渲染态（高保真视频画面）完美对齐的数据，才是训练世界模型真正的原生数据。

为此，VAST 在数据端部署了两层策略，L1 为海量互联网视频自标注，L2 为引擎合成数据。

在第一层，VAST 依托自身长期积累的 3D 基础模型能力，对海量无标注互联网 2D 视频进行反向解构，提取深度、相机位姿与几何轨迹，将单态视频提炼为双态数据。这一方式充分利用了互联网视频的多样性，赋予模型对各类真实世界环境的强泛化能力。

在第二层，VAST 利用游戏引擎天然具备双态运行特征的优势，低成本批量生成带有绝对精准 3D 状态标注、动作指令以及环境变化的配对数据，确保模型学到严密的物理演变与控制逻辑。

这种「互联网数据泛化 + 引擎数据精准化」的组合，在覆盖广度与逻辑精度之间取得了很好的平衡，既不放弃对真实世界分布的学习，也不依赖单一的合成数据来支撑物理逻辑。

不止内容生成：Project Eden 的更大想象空间

Project Eden 指向的，并不只是一个更强的 3D 生成工具，而是下一代互动内容的底层基础设施。

过去，3D 内容生产的门槛非常高。一个可玩、可交互、可多人进入的世界，通常需要美术、建模、动画、关卡设计、物理引擎、网络同步等复杂流程。生成式 AI 已经显著降低了 3D 资产生成的门槛，但单个模型、单个场景、单段动画，都还不是一个真正可运行的世界。

VAST 真正想解决的，是这些内容如何被组织进一个稳定、持续、可交互的世界系统之中。

这也意味着，Project Eden 面向的不只是专业游戏开发者。它可以服务普通创作者、虚拟内容社区、社交空间、AI 原生游戏，以及未来大量由自然语言驱动的互动内容生产需求。

但从更长远的角度看，Project Eden 的潜力可能不止于内容消费。

因为它维护的是一个稳定的底层世界状态，而不是一次性生成的视频画面，这使它天然适合作为通用人工智能的世界底座。对于智能体来说，关键从来不只是看到逼真的画面，而是环境能否按照一致的规则响应动作、保留变化并持续演化。

因此，Project Eden 的价值不只是把 3D 生成推进到交互内容阶段，更在于为世界规则学习、仿真模拟、具身智能、多智能体协同研究提供一个可持续运行的环境。相比纯视频模型，它更接近一个可以被反复进入、持续实验、不断积累交互经验的世界底座。

从这个意义上说，VAST 要做的不是再造一个视频生成模型，而是试图搭建下一代互动内容和通用人工智能共同需要的基础设施：一个稳定、有状态、可演化、可被智能体长期训练和探索的生成式世界。

结语

VAST 是一家全球领先的通用人工智能公司，其愿景是让所有人都能自由创作、沉浸式体验可交互的世界

在此之前，VAST 已经通过 Tripo 系列 3D 大模型，在 AI 3D 生成领域建立了较强的技术积累。其中，Tripo P1.0 能够在 2 秒内生成专业建模师级别的 3D 模型，生成速度较市面主流方案提升百倍以上；Tripo H3.1 则在模型精度、结构完整性和贴图质量上持续保持行业领先。旗下平台 Tripo Studio 已聚集超过 2000 万创作者，累计生成近 1 亿个 3D 模型。