当 Sora 让世界看到了 AI 生成视频的惊艳效果,一个更深层的问题浮出水面:如何让生成的视频不只是「看起来像」,而是真正理解并遵循物理世界的规律?这正是「视频世界模型」(Video World Model)要解决的核心挑战。当生成时长从几秒扩展到几分钟,模型不仅要画面逼真,更要在长时间尺度上保持结构、行为与物理规律的一致性。然而,误差累积与语义漂移往往导致长视频出现画面退化与逻辑崩坏 —— 这已成为衡量世界模型能力的关键瓶颈。
围绕这一挑战,上海人工智能实验室联合复旦大学、南京大学、南洋理工大学 S-Lab 等单位提出了LongVie 2—— 一个能够生成长达5 分钟高保真、可控视频的世界模型框架
LongVie 2 可自回归生成 3-5 分钟的超长可控视频
- 论文:https://arxiv.org/pdf/2512.13604
- 项目主页:https://vchitect.github.io/LongVie2-project/
- GitHub:https://github.com/Vchitect/LongVie
- 视频演示:https://www.youtube.com/watch?v=ln1kMNYj50Y
什么是理想的视频世界模型?
一个理想的视频世界模型,不应只是「生成得更久」,而应同时具备以下三项核心能力:
- 全面可控性(Comprehensive Controllability):能够在长时间生成过程中稳定响应多种控制信号,保持场景结构与运动意图不漂移;
- 长期视觉保真(Long-term Fidelity):随着时间推进,画面质量不发生明显退化,不出现纹理崩塌或细节丢失;
- 长程上下文一致性(Long-context Consistency):跨片段、跨时间保持语义、身份与物理规律的一致,避免「换世界式」断裂。
现有世界模型的瓶颈在哪里?
本文系统调研了当前主流的视频世界模型,发现一个共同问题:随着生成时长的增加,模型的可控性、视觉保真度与时间一致性会同步下降。
现有模型在长时间生成时的退化问题
LongVie 2:三阶段递进式训练
为系统性解决上述挑战,LongVie 2 设计了一套逐层递进的三阶段训练策略,从控制、稳定性到时间一致性层层强化:
LongVie 2 三阶段训练流程
阶段一:Dense & Sparse 多模态控制
通过引入稠密信号(如深度图)与稀疏信号(如关键点轨迹),为模型提供稳定且可解释的世界约束。这使生成过程不再完全依赖隐式记忆,从源头提升长程可控性。
阶段二:退化感知训练(Degradation-aware Training)
长视频生成中,质量衰减几乎不可避免。LongVie 2 的核心创新在于:在训练阶段主动「制造困难」——
退化感知训练示意图
- 利用 VAE 的多次 encode-decode 模拟重建误差;
- 通过 加噪 + Diffusion 去噪 构造退化图像。
以此作为训练信号,使模型学会在不完美输入下保持稳定生成,显著增强长期视觉保真度。
阶段三:历史上下文建模
在生成过程中显式引入历史片段信息,并通过针对性 loss 约束相邻片段的衔接,使跨片段过渡更加自然顺畅,有效缓解长视频中的语义断裂与逻辑跳变问题。
三阶段训练效果对比
一图看懂 LongVie 2 框架
通过多模态控制、退化感知训练与历史上下文建模的协同设计,LongVie 2 将长视频生成从「片段拼接」提升为持续演化的世界建模过程:
LongVie 2 整体框架
从左至右,LongVie 2 首先将跨片段的稠密(深度)与稀疏(关键点)控制视频做全局归一化,并为所有片段采用统一的噪声初始化。随后在每一片段生成时,将全局归一化后的控制信号、上一片段的末帧与文本提示送入模型,逐步生成完整的长视频。
LongVie 2 能力展示
该研究将LongVie 2与 Go-With-The-Flow 和 Diffusion As Shader 进行了对比。结果显示,LongVie 2 在可控性方面表现显著优于现有方法:
与现有方法的可控性对比
消融实验也充分验证了三阶段训练的有效性:
消融实验结果
LongVGenBench
首个可控超长视频评测基准
当前缺乏面向可控长视频生成的标准化评测。为此,本文提出LongVGenBench—— 首个专为超长视频生成设计的基准数据集,包含100 个时长超过 1 分钟的高分辨率视频,覆盖真实世界与合成环境的多样场景,旨在推动该方向的系统研究与公平评测。
定量评估与用户主观测评结果显示,LongVie 2 在多项指标上达到SOTA 水平,并获得最高用户偏好度:
定量评测结果与用户研究
热门跟贴