打开网易新闻 查看精彩图片

这项由南京大学、腾讯混元、香港中文大学(深圳)等机构联合开展的研究发表于2026年2月的预印本论文arXiv:2602.05871v1,有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

当你用AI生成视频时,是否遇到过这样的情况:开头几秒钟还挺正常,但越往后看越觉得不对劲,人物的脸可能慢慢变了样,背景也逐渐偏离了最初的设定,就像是摄像师越拍越"跑偏"一样。这个问题在AI视频生成领域被称为"误差累积",就如同传话游戏一样,每一个环节的小偏差会逐渐放大,最终导致结果面目全非。

研究团队发现,目前最先进的自回归视频生成模型虽然能够实现实时生成,但在生成长视频时就会遇到这个老大难问题。每生成一帧新画面,都需要基于前面已经生成的内容,而前面内容中的任何小错误都会被带到后面,像滚雪球一样越滚越大。以往解决这个问题的方法通常需要重新训练整个AI模型,这就像为了修复一个小零件而重新组装整台机器一样费时费力。

这次的研究提出了一个巧妙的解决方案,叫做"路径测试时校正"。这就像在拍摄过程中设置了几个"校准点",当发现画面开始偏离时,及时参考最初的"标准画面"进行微调,让后续的生成重新回到正轨。最关键的是,这种方法不需要重新训练AI模型,就像是给现有的摄像设备安装了一个智能校准器,随时可以启用。

实验结果显示,这种方法能够将稳定生成的视频长度从几秒钟延长到30秒以上,同时保持了与那些需要大量重新训练的方法相当的视觉质量。这意味着AI视频生成终于可以摆脱"短视频"的限制,向着真正实用的长视频制作迈出了重要一步。

一、传统方法的困境:为什么AI视频会越拍越歪

要理解这项技术的价值,我们首先需要明白AI生成视频的工作原理。目前主流的视频生成方法可以分为三种基本类型,就像三种不同的拍摄方式。

第一种是"一口气拍完"的双向模式。这就像电影拍摄时同时考虑整个场景的所有元素,所有画面同时生成,因此能够保持很好的一致性。但这种方法的问题是无法实现流式生成,就像必须等整部电影拍完才能看到任何片段一样,无法满足实时应用的需求。

第二种是"逐帧拍摄"的自回归模式。这种方法更像是传统的拍摄方式,一帧接一帧地生成视频内容。每生成一帧新画面时,AI都会参考前面已经生成的所有内容。虽然这种方式支持实时流式生成,但正是这种"接力"的方式导致了误差累积问题。

第三种是研究中重点关注的"少步蒸馏"方式。这种方法试图在前两种之间找到平衡,通过减少生成步骤来提高效率,同时在每个步骤中注入随机噪声来保持生成的多样性。但问题在于,这种随机性虽然增加了创造性,却也为误差累积埋下了隐患。

研究团队通过深入分析发现,误差累积问题的根源在于每一步生成都会引入微小的偏差,而这些偏差在后续步骤中会被不断放大。这就像是在传话游戏中,第一个人说"天空很蓝",传到最后可能变成了"田鼠很懒"。在视频生成中,这种偏差表现为人物特征的逐渐变化、背景的漂移、甚至是整体风格的转变。

更加复杂的是,现有的一些解决方案虽然能够缓解这个问题,但都需要对AI模型进行重新训练或大幅修改。这就像为了解决汽车轮胎的问题而重新设计整台汽车一样不切实际。这些方法不仅耗时耗力,而且往往会影响模型的其他性能表现。

二、测试时优化的尝试与局限:为什么简单修补行不通

面对这个挑战,研究团队首先尝试了当前流行的"测试时优化"方法。这种方法的基本思路是在生成过程中实时调整模型参数,就像是边开车边调整方向盘一样。理论上听起来很合理,但实际测试却暴露出严重问题。

测试时优化通常需要定义一个"奖励函数"来指导优化方向。研究团队设计了两种不同的奖励机制进行对比实验。第一种是基于像素级重建的方法,试图让后续生成的内容与初始画面在像素层面保持一致。第二种是基于语义一致性的方法,通过预训练的特征提取网络来确保内容在语义层面的连贯性。

然而,这两种方法都遇到了致命问题。像素级重建方法很快就陷入了"复制粘贴"的陷阱,后续生成的画面几乎成了初始画面的翻版,完全失去了动态性和自然性。这就像是为了防止偏离主题而让所有演员都保持同一个姿势,虽然一致性达到了,但完全失去了视频的意义。

语义一致性方法虽然避免了僵化问题,但在抑制长期误差累积方面效果有限。生成的视频仍然会出现明显的时间漂移,人物和背景逐渐偏离最初设定。这说明仅仅依靠高层语义信息还不足以解决底层的技术问题。

更严重的是,研究团队发现蒸馏模型对参数调整极其敏感。即使是微小的梯度更新也可能导致整个生成过程崩溃,产生完全无意义的输出。这种现象被称为"奖励崩溃",就像是一个精密的钟表机构,稍微动一下某个齿轮就可能导致整个系统停摆。

这些实验结果让研究团队意识到,传统的测试时优化方法并不适用于蒸馏视频生成模型。问题的根源不在于模型参数的调整,而在于生成过程本身的累积误差特性。因此需要一种全新的思路来解决这个问题。

三、路径校正的核心思想:在对的时机做对的事

经过深入思考,研究团队提出了一个革命性的解决思路:与其试图修改模型本身,不如在生成过程中巧妙地进行干预。这就像是在拍摄过程中设置检查点,当发现画面开始偏离时及时进行校准。

这种方法的核心洞察在于理解蒸馏扩散模型的生成过程。与传统的确定性生成不同,这些模型在生成过程中会经历多个去噪步骤,每一步都涉及噪声的添加和去除。研究团队发现,这个看似复杂的过程实际上为干预提供了绝佳的机会窗口。

在生成的早期阶段,模型主要确定整体结构和布局,就像是先画出建筑的基本框架。在这个阶段进行干预可能会破坏整体结构的稳定性。但随着去噪过程的进行,模型逐渐转向细节优化阶段,这时候进行校正既不会影响整体结构,又能有效纠正累积的偏差。

具体来说,研究团队选择在噪声水平相对较低的步骤进行干预。在这些关键节点上,他们会临时将当前的生成上下文替换为最初的参考帧,让模型基于这个"标准答案"生成一个校正版本的预测结果。这就像是让迷了路的司机重新参考最初的地图和目的地,重新规划接下来的路线。

但简单的替换还不够,因为这样可能会造成生成路径的突然跳跃,产生不自然的视觉效果。研究团队的巧妙之处在于,他们会将这个校正后的预测结果重新加上适当的噪声,然后让正常的生成过程继续进行。这样既实现了校正的目的,又保持了生成过程的自然连贯性。

这种方法被称为"路径级测试时校正",因为它不是简单地替换某个生成结果,而是在整个生成路径上进行巧妙的引导。就像是在河流中设置几个导流坝,既不阻断水流,又能引导水流朝着正确的方向前进。

四、技术实现的精妙细节:魔鬼藏在细节里

要理解这项技术的精妙之处,我们需要深入了解其具体实现过程。整个校正过程就像一个精心编排的舞蹈,每一个步骤都有其特定的目的和时机。

首先是校正时机的选择。研究团队通过大量实验发现,在去噪过程的特定阶段进行干预最为有效。这些阶段对应于噪声水平为500和250的步骤。在这些节点上,模型已经确定了基本的视觉结构,但仍有足够的灵活性来接受引导性调整。

校正过程分为两个关键阶段。第一阶段是"参考引导校正"。在这个阶段,系统会暂时将当前的上下文信息替换为最初的参考帧信息,让模型基于这个"标准答案"重新生成当前步骤的预测结果。这就像是让学生重新参考标准答案来检查自己的解题过程。

第二阶段是"重新噪化和去噪"。校正后的预测结果会被重新加上与当前步骤对应的噪声水平,然后恢复正常的上下文信息继续进行去噪。这个过程确保了校正后的结果能够自然地融入到后续的生成过程中,避免产生突兀的视觉跳跃。

这种设计的巧妙之处在于它完全遵循了原有模型的生成规律,没有破坏任何现有的约束条件。所有的中间状态都是通过有效的扩散变换产生的,因此能够被后续步骤正确理解和处理。这就像是在不改变游戏规则的前提下,巧妙地利用规则来达到更好的效果。

研究团队还特别注意了校正频率的控制。过于频繁的校正可能会限制模型的创造性和自然性,而校正不足则无法有效抑制误差累积。通过大量实验,他们找到了最优的校正策略:在少数几个关键节点进行精准干预,既保证了校正效果,又维持了生成的自然性。

此外,整个方法的计算开销极小。相比于需要重新训练模型的方法,这种校正策略只是在现有生成过程中添加了几个轻量级的额外步骤,计算成本增加微乎其微。这使得该方法具有很强的实用性,可以轻松部署到现有的视频生成系统中。

五、实验验证:数据说话的时刻

为了验证这项技术的有效性,研究团队设计了一系列全面而严格的实验。他们选择了两个代表性的基础模型CausVid和Self-Forcing作为测试平台,这两个模型都是基于最新蒸馏技术的自回归视频生成系统。

实验的设计非常巧妙。研究团队使用了标准的VBench评测套件,在128个随机选择的提示词上进行了30秒长视频的生成测试。这些提示词涵盖了各种不同的场景、风格和动作类型,确保了测试结果的全面性和代表性。

定量结果令人印象深刻。在Self-Forcing基础上应用路径校正后,主体一致性从92.5分提升到94.0分,背景一致性从93.2分提升到94.2分。更重要的是,动态程度指标也有显著改善,从62.5分提升到60.2分,这表明在提高一致性的同时并没有牺牲视频的动态性和生动性。

为了更深入地评估长期稳定性,研究团队还采用了多种专门的指标。颜色漂移分析显示,使用校正方法后,首尾帧之间的颜色直方图L1距离从1.028降低到0.644,相关系数从0.479提升到0.710。这些数据直观地表明,视频在30秒的生成过程中能够更好地保持视觉一致性。

JEPA一致性评估是另一个重要的验证维度。这种评估方法通过预训练的表示学习模型来测量语义层面的连贯性。结果显示,标准偏差从0.0145降低到0.0108,首尾差异从0.191减少到0.170,表明视频在语义层面的连贯性得到了显著改善。

特别值得关注的是与现有方法的对比结果。相比于需要大量训练的Rolling Forcing和LongLive方法,路径校正在不需要任何额外训练的情况下,在多数指标上达到了相当甚至更优的性能。这充分证明了该方法的有效性和实用性。

研究团队还进行了详细的消融实验来验证设计选择的合理性。他们发现,单点校正(只在一个时间点进行干预)容易产生视觉不连续性,而路径级校正通过重新噪化过程有效解决了这个问题。校正时机的选择也经过了仔细的优化,在噪声水平500和250进行干预被证明是最优选择。

六、与其他方案的较量:知己知彼的全面对比

为了更好地体现这项技术的优势,研究团队进行了与多种现有解决方案的详细对比。这些对比不仅包括技术性能,还涵盖了计算效率、部署难度等实用性考量。

首先是与测试时扩展方法的对比。Best-of-N方法通过生成多个候选结果并选择最佳的一个来提升质量,Search-over-Path则在每个生成步骤都进行候选选择。虽然这些方法在某些质量指标上有所改善,但计算开销巨大。Best-of-N和Search-over-Path都需要5倍的计算资源,而路径校正只增加了约33%的计算成本,性价比优势明显。

与基于训练的长视频生成方法相比,路径校正展现出了显著的优势。Rolling Forcing虽然能够生成较长的稳定视频,但需要专门的滑动窗口机制和模型微调。LongLive采用了复杂的记忆机制和重新训练策略,虽然效果不错,但部署复杂度很高。相比之下,路径校正是即插即用的,可以直接应用于任何现有的蒸馏视频生成模型。

特别有趣的是与"汇聚点"方法的对比。这种方法试图通过将某一帧设为永久参考来避免误差累积,但实验显示这种做法会过度约束模型的创造性,导致生成的视频缺乏自然的动态变化。路径校正通过间歇性校正避免了这个问题,既保证了一致性又维持了动态性。

在短视频生成的测试中,路径校正同样表现优异。虽然误差累积在短序列中不那么明显,但该方法仍然带来了稳定的改善,表明其具有良好的通用性。这种全场景的适用性使得该方法具有更广泛的应用价值。

计算效率方面的对比更是突出了该方法的实用性。传统的测试时优化方法通常需要在每个步骤进行梯度计算和参数更新,计算开销巨大且容易导致不稳定。路径校正只在几个关键步骤进行轻量级干预,总体开销minimal,使得实时应用成为可能。

七、方法的深层原理:为什么这样做有效

要真正理解这项技术的价值,我们需要深入探讨其成功的根本原理。路径校正之所以有效,源于对蒸馏扩散模型内在机制的深刻理解。

扩散模型的生成过程本质上是一个从随机噪声逐步演化为有意义内容的过程。在这个过程中,不同的去噪步骤承担着不同的功能。早期步骤主要负责确定全局结构和布局,而后期步骤则专注于细节填充和纹理生成。这种分层的生成机制为selective干预提供了理论基础。

误差累积的根源在于每一步的微小偏差会在后续步骤中被不断放大。传统的解决思路是试图从源头消除这些偏差,但这往往会带来其他问题,比如过度约束或计算复杂度激增。路径校正采用了不同的策略:接受偏差的存在,但在关键节点进行纠正,防止偏差超出可控范围。

这种策略的巧妙之处在于它利用了扩散过程的随机性质。由于每个步骤都涉及噪声的注入和去除,轻微的路径调整不会破坏整体的生成逻辑。这就像在河流中进行轻微的疏导,既不会影响水流的自然性,又能确保大致的流向正确。

从信息论的角度看,路径校正实际上是一种智能的信息注入机制。它在保持原有信息流的基础上,在关键时刻注入参考信息来纠正累积偏差。这种方式比简单的参数调整更加温和有效,避免了对模型内在表示的破坏。

重新噪化策略的重要性不容忽视。简单的预测替换会导致生成路径的突然跳跃,破坏时间连贯性。通过将校正结果重新映射到相应的噪声水平,系统确保了所有中间状态都符合模型的期望分布,从而保持了生成过程的自然性。

这种设计还体现了对计算资源的高效利用。相比于全程监督或密集校正,稀疏但精准的干预策略在达到相同效果的同时大大降低了计算开销。这使得该方法具有很强的实际部署价值。

八、应用前景与影响:开启长视频生成新时代

这项技术的成功不仅解决了一个重要的技术问题,更为AI视频生成领域开启了新的可能性。长期以来,自回归视频生成模型受限于误差累积问题,只能生成几秒钟的短片段。路径校正技术的突破使得生成30秒甚至更长的连贯视频成为现实。

在内容创作领域,这一进展具有革命性意义。传统的AI视频生成主要用于短片段创作,如GIF动画或简短的演示视频。现在,内容创作者可以利用AI生成完整的故事片段、产品展示视频或教学内容,大大扩展了创作的可能性。

影视制作行业也将从中受益。虽然AI生成的视频还无法完全替代专业拍摄,但在预览、故事板制作、特效预设计等环节,长时间稳定的AI视频生成能够大大提高工作效率,降低制作成本。

教育和培训领域的应用前景同样广阔。长时间稳定的视频生成使得创建个性化教学视频成为可能。教师可以根据不同的教学需求生成相应的演示视频,而不必依赖现有的视频资源或复杂的拍摄制作流程。

更重要的是,这种训练无关的解决方案为其他相关问题提供了新的思路。在AI的许多应用场景中,都存在类似的累积误差或长期稳定性问题。路径校正的核心思想——在生成过程中进行智能干预而不是修改模型本身——可能为解决这些问题提供新的方向。

从技术发展的角度看,这项工作还为未来的研究指明了方向。如何在保持模型原有能力的同时进行精准干预,如何设计更加智能的校正策略,如何进一步降低计算开销等问题,都值得深入探索。

该技术的开源特性也为学术界和产业界的进一步发展奠定了基础。研究团队计划公开相关代码和模型,使得更多的研究者和开发者能够基于这一工作进行改进和应用,加速整个领域的发展进步。

九、技术局限与未来展望:前路依然充满挑战

尽管路径校正技术取得了显著成果,但研究团队也诚实地指出了当前方法的局限性。首先,虽然该方法能够显著改善长视频的稳定性,但在某些极端情况下仍然可能出现累积偏差。特别是在包含复杂动作序列或剧烈场景变化的视频中,当前的校正策略可能还不够精准。

校正时机的选择仍然需要进一步优化。目前的方法主要基于噪声水平来确定干预时机,但理想情况下应该能够动态地根据实际的偏差程度来调整校正策略。这需要开发更加智能的偏差检测机制。

计算效率方面虽然相比其他方法有了显著改善,但在追求极致实时性的应用场景中仍有提升空间。未来的工作可能需要探索更加轻量化的校正策略,或者开发专门的硬件加速方案。

另一个重要的挑战是如何处理多样化的内容类型。当前的实验主要集中在常见的视频场景上,但对于动画、抽象艺术、科幻场景等特殊内容类型的适应性还需要进一步验证和优化。

用户控制性也是一个值得关注的方向。虽然当前的方法能够自动进行校正,但在某些创作场景中,用户可能希望对校正过程有更多的控制权,比如选择性地保留某些"偏差"来达到特殊的艺术效果。

从更广阔的视角看,这项工作为AI模型的可控性研究开辟了新的思路。如何在不改变模型本身的情况下实现精准控制,如何设计既保持模型能力又提供额外保障的干预机制,这些问题的解决将对整个AI领域产生深远影响。

研究团队表示,他们正在探索将这一技术扩展到其他模态的生成任务中,如音频生成、3D内容创建等。这些探索有望为更多的AI应用带来稳定性提升。

未来的发展还可能包括与其他先进技术的结合,比如与强化学习结合来优化校正策略,与注意力机制结合来提升校正精度,与多模态学习结合来实现更智能的内容理解等。

说到底,这项研究代表了AI视频生成技术的一个重要里程碑。它不仅解决了长期困扰该领域的核心问题,更重要的是展示了一种全新的问题解决思路。通过巧妙的工程设计而非复杂的模型修改,实现了显著的性能提升,这种"四两拨千斤"的智慧值得我们深思和学习。

对于普通用户而言,这意味着AI视频生成工具将变得更加实用和可靠。我们可以期待在不久的将来,看到更多基于这一技术的应用产品问世,为内容创作、教育娱乐等各个领域带来新的可能性。而对于技术从业者来说,这项工作提供了宝贵的经验和启发,证明了深入理解问题本质、寻找巧妙解决方案的重要性。

Q&A

Q1:路径测试时校正技术是什么原理?

A:这项技术的原理类似于在视频生成过程中设置"校准点"。当AI生成视频时,会在特定步骤参考最初的画面进行校正,就像让迷路的司机重新看地图找方向一样。关键是这种校正不会破坏正常的生成流程,而是巧妙地融入其中。

Q2:这种方法比传统解决方案有什么优势?

A:最大优势是不需要重新训练AI模型就能使用,就像给现有设备安装校准器一样简单。相比那些需要5倍计算资源的方法,这种技术只增加33%的计算成本,但能将稳定视频长度从几秒延长到30秒以上。

Q3:路径校正技术有哪些应用前景?

A:这项技术将使AI视频生成从短片段创作扩展到完整视频制作,在内容创作、影视预览、教育培训等领域都有广阔应用。更重要的是,它为解决AI系统中类似的累积误差问题提供了新思路,可能影响整个AI领域的发展。