LiveWorld：视频世界模型新范式，让镜头之外的世界继续演化|点云|相机|轨迹

视频链接：https://mp.weixin.qq.com/s/IBAIk3TPzS_UExnHCtNUwg

论文标题：LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models
项目主页：https://zichengduan.github.io/pages/LiveWorld/index.html
文章链接：https://arxiv.org/abs/2603.07145
代码链接：https://github.com/ZichengDuan/LiveWorld

世界模型正在成为通向通用智能的重要方向。借助视频生成模型强大的视觉先验，这类系统可以根据当前观察、文本提示和相机轨迹，模拟一个能够被持续探索的虚拟环境，并服务于智能体训练、交互式仿真、自动驾驶决策和大规模合成数据生成。

然而，当越来越多的研究开始追求更高的画质和更精确的相机控制时，一个更基础的问题仍未得到充分回答：这些模型究竟是在模拟持续运行的世界，还是只是在生成相机当前看到的视频？

来自阿德莱德大学、澳大利亚国立大学、蒙纳士大学、浙江大学与奥克兰大学的研究者重新审视了现有视频世界模型的建模方式。他们发现，这类方法普遍把「世界自身如何演化」与「相机在某个视角下看到了什么」交给同一个视频生成器处理。

这种耦合会带来一个直接后果：一旦某个物体离开相机视野，模型通常就不再更新它的状态，而是将其停留在最后一次被看到的时刻。例如，一只狗正在吃东西，观察者转头看向别处，过一会儿再回来。现实中，狗可能已经吃完并走开；现有模型却往往再次生成「狗仍在吃东西」的画面，仿佛相机移开的同时，局部世界也被按下了暂停键。

研究者将这一缺失的时间进程定义为「视野外动态」（Out-of-Sight Dynamics），并指出现有视频世界模型实际上隐含着一种「静态世界假设」：只有进入相机视野的内容才会继续变化。为打破这一假设，他们提出了LiveWorld，将世界演化与观察渲染显式解耦，使事件在离开视野后仍能持续推进。

LiveWorld：解耦世界演化与观察渲染

LiveWorld 的出发点很简单：世界如何变化，不应该由相机正在看哪里决定。因此，它不再让视频生成器同时猜测「世界发生了什么」和「相机看到了什么」，而是把两件事明确拆开：先让世界状态随时间演化，再根据相机轨迹渲染当前观察。

这一分解也带来了清晰的系统分工：虚拟监视器（Monitor）负责在固定位置持续模拟局部事件，观察渲染器（Renderer）负责从移动相机的视角呈现更新后的世界。二者虽然职责不同，本质上都属于「给定状态与条件生成视频」，因此 LiveWorld 使用同一个基于 Wan2.1-14B-T2V 的状态条件视频扩散骨干实现两种功能。

方法设计

沿着上述思路，LiveWorld 的运行过程可以理解为一条持续循环的流水线：发现需要跟踪的动态实体，让它们在视野外继续演化，同时积累静态场景；当相机再次经过时，再把二者组合成最新画面。具体包含以下四个环节：

为动态事件设置虚拟监视器。每轮生成前，系统使用 Qwen3-VL 和 SAM3 检查上一段视频，识别其中可能继续活动的人、动物或车辆等实体。如果某个新实体所在区域尚未被覆盖，系统就在该位置注册一个固定的虚拟监视器（Monitor），并记录当时的相机位姿与画面作为锚点。为控制计算开销，活跃 Monitor 的数量设有上限；超出后，优先移除距离当前观察者最远的一个。

在固定视角下推进局部事件。当观察者转向别处后，Monitor 仍会继续工作。它以锚定画面的静态背景、裁剪出的实体外观，以及描述后续动作的文本为条件，生成该区域接下来发生的视频。例如，狗可以继续吃完食物并走开，而不是停在最后一次被看到的姿态。生成的前景视频结合深度信息被还原到三维空间，形成随时间变化的 4D Monitor 点云。若实体在一轮视频的中途才出现，系统还会先补齐从出现时刻到当前时刻的状态，使其与全局时间线同步。
持续积累静态空间记忆。与动态实体并行，系统会从历史观察中分离背景区域，并通过前馈式 SLAM 框架 Stream3R 增量融合为全局 3D 点云。这部分记录场景中相对稳定的结构，为长期重访、视角变换和相机控制提供空间基础。这样，LiveWorld 不需要反复生成整片世界，只需重点更新真正发生变化的局部区域。
从最新世界状态渲染观察。当相机移动或重访旧区域时，系统先把静态 3D 点云与已经演化到当前时刻的动态 4D 点云，共同投影到目标相机轨迹上，得到像素级几何条件。随后，状态适配器（State Adapter）将投影结果注入视频扩散模型，约束物体的位置、结构与运动；外观 LoRA（Appearance LoRA）则利用检索到的历史参考帧补充纹理和身份细节。最终生成的视频既遵循目标相机运动，也能呈现实体在离开视野期间发生的变化。

由此，LiveWorld 形成了一个闭环：观察新区域、注册动态事件、在后台推进状态，再从最新状态生成下一段观察。它并没有试图一次性构建完整的 4D 世界，而是用「静态场景长期记忆 + 动态实体按需演化」的方式，把视野外动态转化为一个可计算、可扩展的问题。

实验验证

要评估视野外动态，仅比较单段视频的画质并不够。关键在于：相机离开后再回来，事件是否已经推进，物体身份是否保持，场景几何是否仍然一致。为此，研究者构建了首个面向该问题的专门基准LiveBench，包含 100 个场景和 400 条评估序列，并为每个场景配置多轮相机轨迹与文本事件脚本。

LiveBench 包含两类重访轨迹：Same-Pose（A→B→A→B→A）要求相机多次回到同一位置，考察长时序状态变化；Different-Pose（A→B→C）则让相机从新视角重访旧区域，同时考察事件演化与三维一致性。研究者将 LiveWorld 与 Matrix-Game-2.0、Hunyuan-GameCraft-1.0 和 Spatia 等开源相机可控世界模型进行了比较。

事件并没有停在旧画面里。衡量事件是否按照脚本推进的 VQA-Acc 最能体现这一点。在 Same-Pose 的第二次长时序重访中，LiveWorld 达到，显著超过 Spatia（14.655）、GameCraft-1（10.273）和 Matrix-Game-2.0（5.012）；在更困难的 Different-Pose 第二次重访中，LiveWorld 仍达到，而其他方法普遍降至个位数。这表明模型呈现的并非缓存中的旧画面，而是推进后的事件状态。
事件变化的同时，物体和空间也能保持一致。第二次重访时，LiveWorld 的前景 DINO 相似度达到，而 Spatia 为 0.416；动态点云的 Chamfer Distance 降至，优于所有对比方法。背景一致性则与采用显式 3D 记忆的 Spatia 持平或更优。这说明 LiveWorld 不只会生成符合文本的动作，也能把变化后的实体放回正确的空间位置。

多事件场景进一步检验了系统闭环。当多个事件需要在视野外并行推进时，去掉事件演化模块的版本在最严格的 Full Succ. 指标上为0%，完整 LiveWorld 则达到26%。消融实验还显示，去掉空间记忆会导致相机控制失效，并在重访时产生漂移和重影；去掉参考帧后，前景身份和背景外观都会在长序列中逐渐失稳。性能提升因此并非单纯来自更大的生成模型，而是来自动态演化、空间记忆和状态渲染之间的协同。

消融实验验证了各个模块的作用。移除事件演化后，系统退化为普通的相机可控视频模型，无法在重访时呈现已经推进的事件；移除空间记忆后，相机控制和背景几何明显恶化，容易出现漂移与重影；移除历史参考帧后，长序列中的前景身份和背景外观逐渐失稳。三项结果分别对应时间演化、空间一致性和外观保持，表明 LiveWorld 的提升来自完整系统设计，而非单纯扩大生成模型。

更多可视化结果 —— 多事件重访与不同位姿重访

结论与展望

LiveWorld 提出的核心问题是：如果一个世界模型只能更新相机正在观察的内容，它所建模的仍然只是连续的视频，而不是持续运行的世界。通过形式化「视野外动态」、显式拆分世界演化与观察渲染，并结合静态 3D 空间记忆和动态 4D 实体状态，LiveWorld 将视频世界模型从「记住看过的画面」推进到「维护看不见时仍在变化的状态」。

这项工作并非最终答案，而是为持续世界建模提供了一个可实现、可评测的起点：未来仍需探索带隐式动态记忆的端到端模型、更完整高效的 4D 世界表示、更合理的状态注入与渲染机制，以及跨区域事件交互和推理成本控制。只有当模型能够长期维护对象、事件、空间与时间之间的关系，生成式世界模型才可能真正成为可持续运行和交互的世界模拟器。