西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026|cvpr|张弛(足球运动员)|张驰|新论文|西湖大学

FreeLOC：一种面向长视频生成的分层自适应推理校正方法。

作者丨郑佳美

编辑丨岑峰

过去一段时间，AI 视频最让人惊艳的，往往都是前几秒。人物状态自然，光影氛围到位，动作也足够流畅，很容易让人产生一种感觉，视频生成已经离真正可用不远了。

但行业越往前走，问题也越清楚，真正难的从来不是做出一小段漂亮画面，而是能不能把这种质量稳定地延续下去。一旦视频时长被拉长，很多模型就会开始慢慢失稳，人物、场景和动作表面上还在延续，内部却已经出现细节漂移和时序松动。

这也是为什么，今天 AI 视频行业真正卡住的地方，已经不只是能不能生成片段，而是能不能生成连续、稳定、可以承载完整情境的内容。

比如一段厨房视频里，镜头从备菜推进到下锅，再切到摆盘，观众期待看到的是同一个空间、同一套器具和同一份食材被自然地串联起来。再比如一段城市通勤视频里，人物从地铁口走到街边店铺，镜头可以变化，但人物状态、环境关系和动作逻辑不能越走越散。

只有解决这种长时间稳定性问题，AI 视频才真正有机会从展示走向创作和生产。也正是在这样的背景下，西湖大学的张驰团队提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。

这项研究关注的，不是怎样把某一帧做得更亮眼，而是为什么模型在短视频里表现很好，一旦进入长视频生成，质量就会越来越难维持。也正因为它抓住了这个行业里越来越核心的问题，所以这项研究不只是一次常规优化，而更像是在回答，AI 视频从短片段走向长内容时，究竟卡在了哪里。

论文地址：https://arxiv.org/pdf/2603.25209

更长的视频，更明显的优势

在 Wan2.1-T2V-1.3B 上，研究人员把视频长度扩展到 2 倍和 4 倍之后，发现 FreeLOC 的优势非常稳定，而且视频越长，这种优势越明显。

先看 2 倍长度，也就是 161 帧的结果。主体一致性达到 98.06，背景一致性达到 97.49，运动平滑达到 98.98，说明在人物、场景和动作连续性上，它都已经处在最好或接近最好的水平。

更突出的部分在画质相关指标上。图像质量达到 68.31，明显高于 Direct 的 60.34，也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美学质量达到 62.33，而其他方法大多只在 52 到 56 之间，所以这一项的领先尤其明显。

动态程度也达到 39.41，已经接近最佳。换句话说，在 2 倍长度下，FreeLOC 不是只在某一个指标上占优，而是在稳定性、清晰度和整体观感上都表现更强。

到了 4 倍长度，也就是 321 帧，长视频生成的难度会明显上升，因为模型更容易出现内容漂移、画面变糊或者动作失真。但研究结果表明，FreeLOC 在这种更苛刻的设定下仍然能保持很强的表现。

主体一致性达到 98.44，仍然几乎是最高水平。图像质量达到 67.44，而 Direct 已经掉到 59.21，差距达到 8.2。美学质量达到 61.21，Direct 只有 49.43，差距进一步扩大到 11.8。动态程度达到 36.27，而 Direct 只有 4.32，差不多已经是数量级上的差别。

这个结果说明，随着视频长度继续增加，很多方法会越来越难维持质量，但 FreeLOC 仍然能把画面质量和动态表现保持在较高水平，所以它的优势不是偶然，而是在高难度长视频场景里依然成立。

这种提升并不只出现在一个模型上。研究团队又在 HunyuanVideo 上做了同样的测试，结果趋势依然一致。2 倍长度，也就是 253 帧时，图像质量达到 68.92，美学质量达到 62.38，都是最高，主体一致性也有 97.92，优于大多数方法。

到了 4 倍长度，也就是 509 帧，图像质量仍有 67.92，美学质量仍有 61.09，动态程度达到 39.28，也接近最佳。也就是说，FreeLOC 的效果并不是只在 Wan2.1-T2V-1.3B 上成立，而是在另一套视频生成模型上也能复现出相同趋势，这就说明研究提出的方法具有比较明显的跨模型通用性。

为了进一步说明这种提升到底来自哪里，研究团队还做了消融实验，把方法拆开来看。只使用 TSA 时，图像质量是 65.87，美学质量是 57.05，说明单独处理长上下文问题已经能带来可见提升。

只使用 VRPR 时，图像质量是 61.88，美学质量是 54.13，说明单独修正位置问题也有效，但作用还不够强。假如把 TSA 和 VRPR 一起加上去，却对所有层统一处理，图像质量是 65.19，美学质量是 56.34，虽然比只用一个模块更好，但仍然不是最佳结果。

更关键的是，研究人员还测试了随机分配到不同层的做法，结果图像质量反而掉到 63.90，这说明模块本身并不是随便放在哪里都行，真正重要的是放在哪些层上。按层选择之后，也就是 FreeLOC 的做法，图像质量达到 67.44，美学质量达到 61.21，都是最高。

这一部分实验最想说明的是，性能提升不只是因为多加了两个模块，而是因为研究人员发现不同层对不同问题的敏感程度并不一样，所以必须做分层处理，而这正是 FreeLOC 最核心的创新点之一。

研究人员还进一步比较了不同的位置处理方式和不同的注意力机制。在位置处理上，他们比较了 Clipping、Grouping 和 VRPR，最后发现 VRPR 的效果最好，图像质量达到 68.84，美学质量达到 61.21，都明显领先。这说明多粒度的位置重编码确实比简单截断或者简单分组更有效。

在注意力机制上，研究又比较了 Sliding Window、Selected Frame Attention 和 TSA，结果 TSA 依然最好，图像质量达到 68.84，美学质量达到 61.21。这意味着，单纯用滑动窗口虽然能缩小注意力范围，但会损失一部分长程信息，而 TSA 能在控制上下文长度的同时，尽量保留长距离时序关联，所以整体表现更强。

把这些实验合在一起看，研究团队实际上是在证明一件事，FreeLOC 的优势不是只体现在某一个局部技巧上，而是来自一整套更合理的设计，包括位置重编码、注意力控制，以及最关键的分层使用策略。

整体来看，这组实验传递出的结论非常清楚。无论是在 Wan2.1-T2V-1.3B 还是 HunyuanVideo 上，无论是在 2 倍长度还是 4 倍长度设置下，FreeLOC 都能同时提升视频的稳定性、清晰度、美感和动态表现，而且越到更长、更难的生成场景，这种优势越明显。

从设置到机制，一步步验证

在实验设置上，研究团队选用了两个公开可用的视频生成模型，分别是 Wan2.1-T2V-1.3B 和 HunyuanVideo，用来验证 FreeLOC 是否具有跨模型的适用性。

视频生成时，研究人员把输出分辨率统一设为 480p，也就是 832 × 480，并且重点测试了把视频长度扩展到 2 倍和 4 倍之后的生成效果。这样做的目的很明确，就是看模型在视频明显变长之后，是否还能维持原本的画面质量和时序稳定性。

为了证明 FreeLOC 的效果不是偶然，研究还设置了多组对比方法，包括 Direct Sampling，也就是直接生成，Sliding Window，也就是滑动窗口，以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。

这样的对比覆盖了目前比较常见的长视频生成思路，有的是最直接的基线方法，有的是通过局部窗口维持连续性，也有的是已有的训练免费方法，所以能够比较全面地看出 FreeLOC 相比其他方案到底强在哪里。

在评价方式上，研究人员采用的是 VBench 标准，并且把指标分成了一致性和质量两大类。一致性方面主要看 Subject Consistency，也就是人物在长视频里会不会变形或漂移，Background Consistency，也就是背景是否稳定，以及 Motion Smoothness，也就是动作和运动过程是否连续自然。

质量方面主要看 Imaging Quality，也就是画面清晰度，Aesthetic Quality，也就是整体视觉美感，以及 Dynamic Degree，也就是视频的动态表现强不强。这样一来，研究考察的就不只是单纯的清晰度，而是把人物稳定、背景稳定、动作连续、画面质量和观感都纳入了评估范围。

除了常规的对比实验，研究团队还做了一个很关键的探测实验，也就是逐层分析 Transformer。具体来说，研究人员会对每一层施加扰动，然后观察两个结果，一是视觉质量到底下降了多少，二是 attention 的变化到底有多大。

通过这种方法，他们发现不同层对问题的敏感性并不一样，有的层更容易受到位置变化的影响，有的层更容易受到长上下文扩展的影响。这个发现非常重要，因为它直接支持了 FreeLOC 后面的分层处理思路，也就是不是所有层都一视同仁，而是要针对不同层采用不同修正方式。

研究还专门验证了两类核心的 O.O.D 问题。第一类是位置 O.O.D，做法是改变帧之间的相对位置关系，然后观察生成质量会不会下降。第二类是长度 O.O.D，做法是直接增加视频长度，再计算 attention entropy，也就是注意力分散程度。

实验结果表明，视频长度一旦增加，attention 就会变得更分散，而注意力越分散，生成质量往往越差。也正是基于这两类问题的验证，研究团队才进一步提出了后面的 VRPR、TSA 和分层适配策略。整体来看，这一部分实验经过的意义就在于，研究并不是只做结果对比，而是先把问题来源拆清楚，再针对性地设计解决办法。

从「能生成」走向「能使用」

这项研究的意义，不只是把长视频生成的结果做得更好，而是把问题背后的原因说清楚了。研究团队指出，长视频之所以容易出现画面变糊、动作不连贯、人物不稳定这些问题，核心来自两类 O.O.D，也就是位置 O.O.D 和上下文 O.O.D。

这个判断很重要，因为它说明过去很多方法更像是在不断试技巧、调参数，而这项研究开始把问题推进到机制解释的层面。也就是说，研究人员不仅提出了一个更有效的方案，还解释了为什么以前的方法容易失效，为什么视频一变长，模型就会更容易出问题。

这项研究还有一个很实际的意义，就是证明了训练并不是唯一办法。以前一说到长视频生成，很多人会默认要重新训练模型，或者至少做一次很重的额外训练，因为短视频模型通常很难直接应对更长的时序范围。

研究团队这次证明，只在推理阶段做更精细的修正，也能明显改善生成效果。这一点很关键，因为它意味着算力成本会更低，现有模型也更容易直接使用，对技术落地和实际部署都更有帮助。

另外，研究人员还重新揭示了 Transformer 不同层的作用差异。他们发现，不同层并不是在做同一件事，有些层更容易受到位置问题影响，有些层更容易受到长上下文问题影响。

所以真正有效的方法，不是一刀切地改所有层，而是先找出问题主要集中在哪些层，再做针对性修复。这个认识很有价值，因为它不只适用于视频生成，对长上下文的 LLM、图像生成模型的推理优化，其实也都有启发。

换句话说，这项研究提出的不只是一个技巧，更是一种更通用的思路，也就是先识别问题，再定位到层，最后做局部修复。

如果从普通人的角度来看，这项研究的影响其实也很直接。未来大家用 AI 生成稍微长一点的视频时，人物突然变脸、衣服乱变、背景乱跳、动作接不上的情况，有望明显减少。

对普通用户来说，这意味着做故事短片、教学视频、产品展示视频时，成片会更稳定，也更接近真正能用的内容。对内容创作者来说，这意味着返工会更少，制作成本会更低，小团队和个人创作者也更有机会用现成模型做出更长、更连贯的视频内容。

所以这项研究真正推动的，不只是技术指标的提升，而是让 AI 长视频生成离日常可用、商业可用又近了一步。

FreeLOC 的创建者

论文一作田佳豪，目前是西湖大学 AGI Lab 的科研助理，师从张驰教授。主要从事计算机视觉方面的研究。他当前的研究重点集中在扩散生成模型，视频生成，世界模型等方向。

就学术成果来看，他已发表或参与多项工作，包括以第一作者发表在 CVPR 2026 的FreeLOC，以及投递于 ECCV 2026 的 HeadForcing，此外还发表了 DCCM，Loss-Guided Diffusion For General Controllable Generation 等工作，整体研究路径体现出从图像级扩散模型理论、视频时序建模到自回归长视频生成与交互式视频合成的持续推进。

通讯作者张驰，西湖大学助理教授、独立PI，同时担任 AGI Lab负责人，在生成式人工智能和多模态智能方向开展研究工作。在

此之前，他曾在腾讯担任研究科学家，并于新加坡南洋理工大学获得博士学位，师从林国盛教授，同时与沈春华等学者保持长期合作关系。在学术影响力方面，他连续入选斯坦福大学发布的全球前 2% 科学家榜单，并担任多个顶级会议和期刊的重要学术服务角色，包括 ICML、ICLR、CVPR 等会议的 Area Chair，以及 IEEE T-CSVT 的副编辑。

在学术成果与研究产出方面，他长期深耕生成式人工智能领域，研究方向涵盖扩散模型、多模态生成建模以及智能体系统，近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续发表成果，例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

这些研究从图像生成、视频生成延伸到 3D/4D 场景建模以及多模态智能体，形成了一条从视觉理解到世界建模的系统性研究路线。

从整体研究特点来看，张驰的工作强调生成模型的可控性、多模态融合能力以及向真实世界建模能力的拓展，既关注模型基础理论，也注重实际系统构建与应用落地。例如在视频生成与3D建模方向，他推动从单纯生成内容向可控相机运动和空间理解发展，在智能体方向，他探索多模态大模型在真实交互环境中的应用。

这种研究路径体现出从传统计算机视觉向通用人工智能过渡的趋势，也使其工作处于当前人工智能领域较为前沿的位置。