CVPR 2025 | 无限外推！MAGI打造自回归视频生成新范式|上下文|云计算费用|回归|序列|模态

香港科技大学与阶跃星辰团队提出了一种创新的自回归视频生成框架——MAGI（掩码自回归视频生成模型）。MAGI在单帧内采用双向注意力，在帧之间使用因果注意力，来实现帧粒度的视频自回归生成。其不仅充分保留了自回归语言模型的因果注意力（Causal Attention）、键值对缓存（KV Cache）、变长上下文（Variable Context）的优势，还将自回归视频生成性能提升了65%。实验显示，该框架在16帧的短序列训练情况下，可以外推超过100帧的连贯视频，展现了其强大的外推能力。此外，MAGI框架设计简洁高效，易于复现，同时兼容掩码模型、扩散模型等多种视频生成方法，为自回归视频生成提供了一种通用且实用的解决方案。这一研究为视频生成技术的发展开辟了新的方向，具有重要的应用潜力。

论文标题： Taming Teacher Forcing for Masked Autoregressive Video Generation 论文链接： https://arxiv.org/abs/2501.12389 项目链接： https://magivideogen.github.io/ 代码开源：即将发布，敬请关注技术社区更新！

一、传统困境：自回归为何在视频生成中「缺席」？

研究团队（香港科技大学（广州）与阶跃星辰）认为，视频模态的自回归训练作为构建世界模型的重要途径，具有建模物理世界的潜力。但是，当前的视频生成领域，还是被基于双向注意力的扩散模型主导。

其虽能通过全局建模生成高质量单帧，但在长视频生成中存在明显瓶颈：

效率限制：双向注意力机制需全序列计算，无法利用KV Cache、Causal Attention等自回归生成的优势，导致生成长视频时计算开销剧增。
灵活性不足：模型依赖固定长度的上下文输入，难以像语言模型一样灵活处理可变长序列。

相比之下，自回归框架在语言任务中已通过因果建模实现高效生成，但其在视频领域的潜力尚未被充分挖掘。视频生成领域现有的自回归方法主要面临两类局限：

逐块生成（Patch-level）：

空间顺序依赖：现有方法通常强制按预定义顺序（如光栅扫描，即raster-scan，从左到右，从上到下）逐个生成图像块，但这种顺序未必符合图像内在的因果性，限制了生成的自然性和灵活性。
误差累积效应：与逐帧生成相比，逐块生成的步骤随分辨率呈平方级增长，导致误差累积次数大幅增加，从而影响长视频生成的质量和效率。

逐帧生成（Frame-level）：

上下文建模缺陷：现有方法要么使用双向注意力（牺牲自回归的KV Cache优势），要么依赖固定长度上下文（缺乏灵活性），要么引入噪声或掩码污染输入（如帧间采用单向注意力的扩散或掩码模型），均未能复现语言模型中“纯因果建模+可变长上下文”的核心优势。

核心矛盾：自回归视频生成亟需一种既能继承语言模型的高效因果架构，又能克服现有方法上下文建模缺陷的新范式。

为了解决这些问题，我们提出一种新的自回归视频生成框架，叫做MAGI（MaskedAutoregressive VideoGeneratIon）。

二、CTF机制：自回归视频生成的「对齐」革命

MAGI的核心创新在于提出完整教师引导（CTF），借鉴语言模型中的因果建模思路，彻底解决训练与推理的割裂问题，同时保持其原有的优点：

传统MTF：训练时基于掩码帧预测未来帧，推理时依赖生成帧，输入不一致。
新型CTF：训练时直接用完整真实帧作为历史信息，预测未来帧，实现训练与推理的输入对齐。

技术细节：

通过特殊设计的时序注意力掩码，确保每帧仅关注自身及完整历史帧。
在Transformer架构中引入可学习的位置嵌入，区分掩码帧与观测帧。

实验结果：在UCF-101数据集上，CTF相比MTF的FVD分数（衡量视频质量的指标）提升23%，尤其在运动连贯性上表现更优。

三、动态训练：让模型学会「抗干扰」

为缓解自回归模型的曝光偏差与误差累积，MAGI引入两项策略，模拟语言模型中的鲁棒性训练思路：

动态间隔训练：随机采样不同时间间隔的帧，迫使模型学习长程依赖，适应多样化运动速度。
动态噪声注入：在训练时向输入帧添加可控噪声，模拟推理时的预测误差，提升鲁棒性。

实验表明，两项策略互相促进：

如果不采取任何策略，误差累计很容易导致生成结果坍塌。
结合提出的任一训练策略，累计误差都能得到显著缓解。
两者结合，生成稳定性会进一步提升。

四、性能突破：自回归框架的逆袭

在Kinetics-600和UCF-101数据集上的评测显示：

视频预测任务：FVD分数达11.5，比同类自回归模型Omni提升65%（表2）。
无条件生成任务：结合高效分词器（Cosmos），FVD分数降至297.8，逼近非自回归模型性能（表3）。
长视频生成：仅用16帧训练，即可生成超100帧的连贯视频（图6），尽管在非周期性运动（如跳水）中仍有局限，但已展现强大潜力。

五、局限与展望：从实验室到工业场景

目前，实验基于简化设置（如小规模数据集UCF-101）进行，但MAGI的核心设计——完整教师引导（CTF）与动态训练策略，为未来的技术扩展指明了方向：

多模态可控生成：结合文本、音频等多模态输入，实现条件驱动的视频生成。
视频世界模型：通过海量视频数据，探索生成式自监督学习的潜力。
实时交互式视频生成：将MAGI应用于实时游戏生成等领域，实现动态交互体验。

研究团队表示，下一步将聚焦于更大规模数据和复杂场景下的泛化能力，推动技术从实验室走向实际应用，为视频生成领域带来更多可能性。

六、结语：自回归视频生成的新起点

MAGI通过完整教师引导（CTF）机制与动态训练策略，首次提出了一个完整包含语言自回归模型优点的视频自回归模型，为长视频生成提供了可扩展的解决方案。其“以小见大”的能力——仅用短训练帧即可生成长视频——展现了自回归模型的强大潜力。这一突破性成果为视频自监督学习和交互式视频生成等方向打开了新的大门，也为视频生成技术的未来发展注入了新的活力。