视频生成DeepSeek时刻!清华&生数开源框架提速200倍,一周2k Star|deepseek|rtx|开源框架|算法|视频生成

编辑｜杜伟

在 2025 年的最后时刻，一个全新视频生成加速框架的开源宣告了：「等待数分钟才能生成一个视频」的时代已经终结！

这个框架正是清华大学 TSAIL 团队与生数科技联合发布的 TurboDiffusion

加速效果有多夸张呢？在几乎不影响生成质量的前提下，主流视频生成模型在单张 RTX 5090 上生成 5 秒 720p 视频的速度可以提升约 200 倍，同时一个 5 秒 480p 视频的生成时长可以被压缩到不到 2 秒（如下动图）。

这意味着，AI 视频创作进一步突破了传统的「渲染与等待」模式，来到了向「实时生成」时代转变的关键节点。这项突破迅速引起了学界的广泛关注。

TurboDiffusion 无异于抛下了一颗「重磅炸弹」，击破了扩散模型生成高质量视频所面临的主要壁垒 ——高推理延迟。由于模型在生成高分辨率视频时需要处理大量时空信息并捕捉视频帧之间的细节与动态变化，这就需要处理海量的 token，导致推理耗时严重。

以往，主流扩散模型往往需要几分钟甚至几十分钟才能生成几秒的高质量视频，较高的时间延迟极大地限制了模型的实际可用性。而现在，随着加速框架 TurboDiffusion 的开源，视频生成的等待时间大大缩短，更能满足实时生成的需求。

目前，TurboDiffusion 在 GitHub 上已经收获 2k Star，社区关注度持续提升。

项目地址：https://github.com/thu-ml/TurboDiffusion

现在，用户可以体验 TurboDiffusion 支持下的高效文生视频、图生视频的模型版本。

这不禁令我们好奇，TurboDiffusion 究竟采用了哪些技术手段，才能实现视频生成推理速度的百倍提升？

TurboDiffusion：扩散模型视频加速的更优解

通过放出的 TurboDiffusion 技术报告，我们对其采用的训推及优化策略有了更多的了解。

GitHub：https://github.com/thu-ml/TurboDiffusion
技术报告：https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf

作为一项复杂的工程性任务，扩散模型在视频生成加速上面临的核心难点是如何既能保持生成质量，又能系统性地完成减少计算量、加速推理并保证不同模态协同一致性等多个目标

这些挑战涉及到了架构设计、硬件适配、策略优化等多个方面，需要在算法和系统协同的基础上进行有的放矢的精细化处理。

TurboDiffusion 通过一系列创新技术，成功克服了传统 AI 视频在生成效率方面的主要瓶颈。

其中，在推理阶段采用的混合注意力加速、高效步数蒸馏以及 W8A8 线性层量化等「四大核心技术」，成为视频生成百倍加速的关键驱动力，它们均由清华大学 TSAIL 团队联合生数科技自主研发。

首先是混合注意力加速（Attention Acceleration），包括两项正交的注意力加速技术，即SageAttentionSparse-Linear Attention（SLA）

其中使用 SageAttention 进行低比特量化注意力加速。它是一系列通过量化实现高效注意力机制的工作，自 2024 年 10 月以来陆续推出了 V1、V2 和 V3，能够在无损准确率的情况下，在大多数 GPU 上实现即插即用的加速效果。

这里，TurboDiffusion 使用的是「SageAttention2++」变体。

项目地址：https://github.com/thu-ml/SageAttention

同时，TurboDiffusion 使用 Sparse-Linear Attention（SLA）实现稀疏注意力加速。作为一种可训练的注意力方法，SLA 结合使用稀疏注意力和线性注意力来加速扩散模型的计算过程。

SLA 架构示意图，图左展示了高层次思路，注意力权重被分为三类，并分配给不同复杂度的计算；图右展示了使用预测的压缩注意力权重的 SLA 前向算法。图源：https://github.com/thu-ml/SLA

不仅如此，由于稀疏计算与低比特 Tensor Core 加速是正交的，SLA 可以构建在 SageAttention 之上，两者的共同作用在推理过程中进一步获得了数倍的额外加速。

接下来是高效步数蒸馏（Step Distillation），具体表现为引入了rCM 蒸馏方法

rCM 通过引入分数正则化和连续时间一致性的概念，优化扩散模型生成视频的时间步长，从而以更少的采样步数完成生成任务，比如将采样步数从原本的 100 步大幅减少到极小值（3 到 4 步），并能保持最佳视频质量。

使用蒸馏后的 Wan2.1 T2V 14B 生成的 5 个随机视频，生成过程中采用了 4 步采样。图源：https://github.com/NVlabs/rcm

最后是W8A8 线性层量化（Linear Layer Quantization）

TurboDiffusion 对线性层的参数（模型权重）和激活值（Activations）进行 8-bit 量化，过程中在 128x128 的块粒度上进行分块量化。这种量化方式将模型大小压缩约一半，并利用 INT8 Tensor Cores 加速线性层计算。

得益于以上四项核心技术的协同作用，TurboDiffusion 的视频生成加速效果被提升到了前所未有的水平。加之训练阶段的并行训练策略，进一步平衡了推理效率和生成质量。

整体训练过程分为两部分并行进行：一是将预训练模型的全注意力替换为稀疏线性注意力（SLA）并进行微调，减少注意力计算的复杂度，降低计算资源消耗；二是使用 rCM 将预训练模型蒸馏为少步数学生模型，通过减少采样步数加速生成过程。最后将 SLA 微调和 rCM 训练的参数更新合并到一个单一模型中，进一步提升模型推理速度和生成质量。

此外，TurboDiffusion 还采用其他一些优化策略，比如使用 Triton 或 CUDA 重新实现 LayerNorm 和 RMSNorm 等操作，以获得更高的执行效率。

多项推理加速技术加持下，视频生成时长从 4767 秒降至 24 秒，提速近 200 倍。

这套技术组合拳验证了：在不牺牲视频表现力的前提下，扩散模型仍具备巨大的压缩与提速空间，为未来更大规模模型的实时部署提供了可借鉴的标准范式。

尤其是推理阶段的四项核心技术对 AI 多模态大模型的技术突破与产业落地具有里程碑式的价值与深远影响力。其中 SageAttention 更是全球首个实现注意力计算量化加速的技术方案，已被工业界大规模部署应用。

例如，SageAttention 已成功集成至 NVIDIA 推理引擎 Tensor RT，同时完成在华为昇腾、摩尔线程 S6000 等主流 GPU 平台的部署与落地。此外，腾讯混元、字节豆包、阿里 Tora、生数 Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM 等国内外头部科技企业及团队，均已在核心产品中应用该技术，凭借其卓越性能创造了可观的经济效益。

单张消费级显卡，不到 2 秒生成高清视频

TurboDiffusion 在技术层面的领先性，为其在实战中的惊艳效果做好了铺垫。

先来看图生视频的加速效果。

我们以 14B 大小的模型生成 5 秒 720p 的视频为例，TurboDiffusion 可以在单张 RTX 5090 上实现几乎无损的端到端119 倍加速。