中科大破解视频生成难题：让AI制作无限长视频不再"越做越糊"|上下文|中科大|保真度|无限长视频|视频生成

这项由中国科学技术大学、香港中文大学、同济大学和腾讯混元联合开展的研究发表于2026年，论文编号为arXiv:2603.08703v1，为解决长视频生成中的质量衰减问题提供了创新方案。

如今，AI生成短视频已经相当成熟，但要让AI制作几十秒甚至几分钟的长视频，就像让一个画家连续作画几小时一样，往往会出现"后劲不足"的问题。画面会逐渐变得模糊、颜色失真，甚至出现莫名其妙的变化。这就是长视频生成中的"分布偏移"问题，简单说就是AI在生成长视频时会逐渐"跑偏"。

研究团队发现，现有的视频生成方法就像接力赛跑，每一棒都要等前一棒完全跑完才开始。这种方式虽然保证了连贯性，但也把前面的错误一股脑地传递给后面，就像传话游戏一样，越传越离谱。为了解决这个问题，他们提出了一个叫做HiAR的新方法，其核心思想是改变传统的"接力赛"模式，让所有选手在每个阶段都同时起跑。

一、传统方法的困境：为什么长视频生成会"越做越糊"

要理解这个问题，我们可以把视频生成过程比作制作一部连环画。传统方法就像一个画家，必须把第一页画得完美无缺，然后再开始画第二页，接着是第三页，以此类推。每一页都要参考前面已经完成的页面来保持故事的连续性。

这种方法在短篇连环画中工作得很好，但当画册变得很长时，问题就出现了。如果画家在第一页画了一个稍微偏蓝的天空，为了保持一致性，第二页的天空也会稍微偏蓝。到了第三页，这种偏蓝可能会更加明显，因为它需要与前两页保持一致。随着页数增加，这种微小的偏差会不断累积，最终导致故事后期的天空变成了诡异的深蓝色，完全偏离了最初的设想。

在AI视频生成中，这个问题被称为"误差累积"。研究人员发现，传统的自回归生成方法会将每个视频片段的预测误差传递给下一个片段，就像多米诺骨牌一样，一个小小的偏差最终可能导致整个视频质量的崩塌。具体表现为画面过度饱和、动作重复、语义偏移等问题。

更糟糕的是，为了确保视频片段之间的时间连续性，现有方法通常会将前面的视频片段完全"清洁化"（去除噪声），然后作为后续生成的参考。虽然这种完全清洁的参考信息能够保证连续性，但也意味着所有的预测错误都会以最大的确定性传递下去，就像在清澈的水中滴入墨汁，污染会迅速扩散到整个容器。

二、HiAR的核心洞察：噪声也许是好朋友

研究团队的关键发现颠覆了传统观念：生成高质量长视频并不需要完全"干净"的参考信息。他们从双向扩散模型中得到启发，发现即使是带有一定噪声的参考帧，也能为后续生成提供足够的时间连续性信号，同时有效减少误差传播。

这个发现可以用调音师的工作来类比。传统方法就像要求调音师必须把第一段音乐调得完美无瑕，然后再调第二段，确保它与第一段完美匹配。但研究团队发现，如果让调音师在所有音乐段落上同时工作，保持相同的"调音程度"，反而能够获得更好的整体和谐效果，即使每个片段单独听起来可能不够完美。

具体来说，HiAR方法不再等待前面的视频片段完全生成完毕，而是在每个去噪步骤中对所有视频片段同时进行因果生成。这样，每个片段在生成时所参考的上下文信息都处于相同的噪声水平，既保证了足够的时间连续性，又避免了完全确定的误差传播。

三、分层去噪：重新设计视频生成的"时间表"

HiAR的技术核心是"分层去噪"框架，它彻底改变了传统视频生成的时间顺序。传统方法遵循"先完成再开始"的原则，而HiAR采用"齐头并进"的策略。

这就像从传统的装配线生产转变为现代的并行处理。在传统装配线上，第一件产品必须完全完成后，第二件产品才能开始。但在并行处理中，所有产品在每个工艺步骤上同时进行，第一步完成后，所有产品一起进入第二步，然后一起进入第三步，以此类推。

在视频生成的背景下，这意味着所有视频片段在第一个去噪步骤完成后，会一起进入第二个去噪步骤，而不是等待第一个片段完全去噪完毕。这种方式的巧妙之处在于，每个片段在生成时总是参考处于相同噪声水平的上下文，就像所有乐手都按照相同的节拍器演奏一样，自然而然地保持了和谐。

研究团队通过数学分析证明，最优的上下文噪声水平应该等于当前去噪步骤的输出噪声水平。这个发现为分层去噪提供了理论基础，确保在减少误差传播的同时保持足够的时间因果关系。

四、管道并行：让视频生成跑得更快

分层去噪框架还带来了一个意外的好处：它天然支持管道并行处理，大大提高了生成效率。这就像将原本需要串行完成的任务重新组织成可以并行执行的流水线。

在传统方法中，生成一个20秒的视频需要按顺序处理每个片段，就像一个厨师必须做完第一道菜才能开始第二道菜。但在HiAR中，整个过程更像一个现代化的餐厅厨房，多个厨师可以同时工作在不同的菜品上，只要保证每道菜在同一时间进行相同的烹饪步骤。

具体实现上，研究团队将每个去噪步骤分配给专门的处理单元，通过异步点对点通信在不同阶段之间传递中间结果。他们还发现，在因果注意力机制下，更新键值缓存和生成下一个片段可以融合为一次前向传递，进一步减少计算开销。这种优化使得HiAR在4步去噪设置下实现了约1.8倍的实际运行加速。

五、训练中的新挑战：低运动陷阱及其解决

当研究团队尝试在分层去噪框架下重新训练模型时，他们发现了一个有趣但棘手的现象：模型逐渐倾向于生成几乎静止的视频。这种现象被称为"低运动捷径"，它的出现有着深层的数学原因。

这个问题可以用学生应付考试的心理来理解。如果考试的评分标准是"尽可能不出错"，那么最安全的策略就是尽可能少写，甚至只写最简单、最不容易出错的答案。在视频生成中，由于分层去噪增加了学习难度，模型需要更多训练步骤才能收敛，而使用的反向KL散度目标具有"寻求模式"的特性，会驱动模型选择最安全、最不容易出错的生成策略，即生成运动幅度很小的静态视频。

为了解决这个问题，研究团队引入了一个巧妙的"前向KL正则化"机制。他们的策略是在双向注意力模式下计算一个额外的损失函数，用来保持运动多样性，同时不干扰主要的训练目标。

这就像为学生设计一个平衡的考试系统：除了"不出错"的要求外，还要求答案必须有一定的创新性和完整性。通过在双向注意力模式下采样教师模型的密集去噪轨迹，并要求学生模型匹配这些轨迹上的连续步骤，系统鼓励模型覆盖教师模型的所有输出模式，而不是仅仅专注于最简单的情况。

研究团队发现，双向注意力模式下的运动动态与因果注意力模式下的运动动态高度相关（相关系数达到0.968），这证明了在双向模式下进行正则化可以有效约束因果模式下的运动表现。

六、实验验证：数据说话的时刻

为了验证HiAR的有效性，研究团队进行了全面的实验评估。他们使用Wan2.1-1.3B作为基础模型，采用4步去噪策略，并在多个维度上与现有最先进的方法进行比较。

在VBench评估框架的20秒视频生成测试中，HiAR取得了显著的性能提升。总体评分达到0.821，超过了所有对比方法，包括双向扩散模型和其他自回归方法。特别值得注意的是，HiAR在质量评分上达到0.846，在保持高视觉质量的同时维持了0.723的语义评分，证明分层去噪并没有牺牲语义保真度。

更重要的是，在动态评分方面，HiAR达到0.686，几乎保持了双向Wan2.1-1.3B教师模型0.690的运动多样性，大幅超越了其他自回归方法。这证明了前向KL正则化在防止运动坍塌方面的有效性。

在专门设计的漂移度量上，HiAR获得了0.257的最低评分，相比Self-Forcing的0.355降低了27.6%，显著减少了长时间视频生成中的质量退化。这个度量通过将20秒视频均匀分为五个时间段，计算感知质量、时间一致性和低级统计量的线性拟合斜率来量化时间稳定性。

在推理效率方面，由于管道并行化的优势，HiAR实现了30帧每秒的吞吐量和0.30秒的每块延迟，相比其他采用相同骨干网络和4步去噪的自回归方法获得了约1.8倍的加速，证明了分层去噪框架的计算效率优势。

七、视觉效果对比：眼见为实

在定性比较中，HiAR的优势更加直观。研究团队展示了在海滩、山地景观、雨伞、攀岩、女性阅读和婴儿肖像等多种场景下的20秒视频生成效果。

与其他方法相比，HiAR生成的视频在整个时间跨度内保持了稳定的色彩保真度、清晰度和结构一致性。其他方法，如CausVid，表现出最严重的退化：画面逐渐偏向霓虹绿和黄色色调，在20秒后场景内容几乎无法识别。Self-Forcing和Causal Forcing在一定程度上缓解了这个问题，但仍然出现明显的颜色过饱和和色调偏移。

特别是在以人为中心的内容上，传统方法的退化更加明显。面部区域出现不自然的色彩偏移和细节丢失，如皮肤质感和面部特征的模糊，这些在感知上非常显著且难以掩盖。相比之下，HiAR从第一帧到最后一帧都保持了一致的视觉质量，无论是风景还是人像内容都没有可察觉的漂移现象。

八、深入分析：每个设计选择的理由

研究团队还进行了详细的消融实验，验证了HiAR中每个组件的重要性。他们探索了不同上下文噪声水平的影响，发现当上下文噪声水平等于当前步骤的输入水平时，虽然获得了最低的漂移度（0.184），但缺乏足够的前瞻信息，导致生成质量下降和运动不平滑。当上下文噪声水平为0（传统Self-Forcing设置）时，模型暴露于最大误差传播，产生最高的漂移度（0.355）。

他们的默认选择——上下文噪声水平等于当前步骤的输出水平——在保持时间平滑性的同时大幅降低漂移并改善整体质量，证明了理论分析的正确性。

在前向KL正则化的设计选择上，研究团队验证了在双向注意力模式下应用该正则化的优势。直接在因果模式下应用会导致动态评分降低和整体质量下降，因为这会产生与模型自回归生成路径紧密耦合的不匹配目标。而双向模式正则化提供了一个空间上均匀的监督信号，非常适合调节全局动态而不干扰因果推理。

研究团队还发现，将前向KL正则化限制在第一个去噪步骤是最优的，因为运动动态主要由早期步骤建立的低频结构控制。约束后续高频细化步骤会带来递减的收益，同时可能干扰模型的去噪能力。

九、技术细节：让复杂变简单

HiAR的实现包含了许多精巧的技术细节。在训练阶段，研究团队从Wan2.1-1.3B基础模型采样了2万条ODE解对，使用Wan2.1-14B作为DMD评判器的教师模型。他们采用块状处理方式，每块包含3个潜在帧，使用5比1的评判器与生成器更新比例。

对于前向KL正则化，他们从基础模型采样了2万条去噪轨迹，每条包含50个ODE步骤，并将正则化限制在第一个去噪步骤，平衡权重设置为0.1。训练使用学习率2×10^-6，总批次大小64，在5秒视频片段上训练2万步。

在推理阶段，他们使用5秒恒定注意力窗口的滑动窗口KV缓存。整个框架在保持训练稳定性的同时，通过管道并行实现了显著的推理加速。

研究团队特别强调了训练-测试一致性的重要性。当仅在推理时应用分层去噪而不进行相应训练时，虽然相比Self-Forcing能够显著降低漂移（从0.355降至0.309），但会大幅损害视觉质量，突出了保持训练-测试对齐的必要性。

说到底，HiAR代表了长视频生成领域的一个重要突破。通过重新思考传统自回归生成的时间顺序，这项研究不仅解决了长期困扰该领域的误差累积问题，还在计算效率上取得了显著提升。更重要的是，通过巧妙的前向KL正则化设计，研究团队成功维持了视频的运动多样性，避免了训练过程中常见的静态化陷阱。

这项工作的影响远远超出了技术层面。它为未来的交互式智能体和世界模型提供了重要的技术基础，使得真正意义上的开放式视频生成成为可能。随着这项技术的进一步发展和优化，我们或许很快就能看到AI生成的长视频在质量和一致性上达到甚至超越人类制作的水平。

对于普通用户来说，这意味着未来的AI视频工具将能够生成更长、更稳定、更高质量的视频内容，无论是用于教育、娱乐还是创意表达。虽然目前这项技术还主要停留在研究阶段，但它为我们展现了一个充满可能性的未来，在那里，创造长篇视频内容将变得像写一篇文章一样简单和自然。

Q&A