打开网易新闻 查看精彩图片

扩散生成模型的发展改变了实时视频直播的内容创作,一些基于图片扩散模型的 AI 直播系统如 StreamDiffusion 和 StreamV2V 以其方便可控和快速响应的特点被广泛应用。但是这些基于图片扩散模型的方法时间一致性较差,而视频扩散模型生成过程中的前后帧依赖关系提供了极佳的时间一致性。

最近的一些自回归视频生成研究能够促使视频生成的吞吐量接近「实时」 的目标,这使得在流式直播中应用这些模型成为可能。

然而,一个被忽视的问题尚未得到解答:吞吐量达到「实时」表现但忽略延迟的系统,能直接用于实时交互生成吗?

近日,一项已经被计算机系统顶级会议 MLSys 2026 接收的工作 StreamDiffusionV2,对这一问题进行了详细讨论并给出了解决方案。来自德克萨斯大学奥斯汀分校等机构的研究者组成的团队提出了一种无需训练、面向交互式直播的流式视频生成系统。该系统可在多种类型 GPU 上稳定运行,同时实现低延迟与高质量生成。

StreamDiffusionV2 已全面开源,对个人用户部署友好,在未应用 TensorRT 或量化的情况下,能够在仅配备双卡 RTX 4090 的设备上稳定 16 FPS 实时推理。其在 H100 上首帧延迟低于 0.5 秒,并在 4 卡设备上稳定实现 14B 模型 58.28 FPS、1.3B 模型 64.52 FPS 的吞吐量。

打开网易新闻 查看精彩图片

  • 论文链接:https://arxiv.org/abs/2511.07399
  • 项目主页:https://streamdiffusionv2.github.io/
  • 代码链接:https://github.com/chenfengxu714/StreamDiffusionV2

打开网易新闻 查看精彩图片

图 1 有限长度的批量视频生成 vs. 该研究提出的流式低延迟的无限长度视频生成

挑战:实时交互式生成的系统性瓶颈

最近,以 CausVid 和 Self-Forcing 等为代表的自回归视频生成模型(Auto-regressive Video Generation),在一定程度上维持了生成质量的同时极大地加快了推理速度。

尽管这些方法亦能在离线模式下进行视频到视频(Video-to-video)生成,但其推理范式仍然难以直接适配实时直播场景。通过分析,研究团队指出当前方法面临以下挑战:

打开网易新闻 查看精彩图片

图 2 Baseline 视频生成模型在 V2V 任务中的缺陷

  1. 实时 SLO 无法满足:现有视频扩散模型主要面向离线生成优化,虽然提升了整体吞吐量,却显著拉高了首帧延迟,且难以满足直播场景对每一帧严格时限和低抖动的服务级目标(SLO)。
  2. 长时间生成中的时序漂移:主流视频扩散系统在持续运行的直播场景中,内容分布与用户输入会不断变化,加剧了自回归视频生成模型的误差累积,导致生成过程中出现风格漂移和时间一致性退化。
  3. 高速动作下的画面撕裂:现有模型多基于慢动作或平稳运动数据训练,在面对快速镜头切换或剧烈运动时表现受限,生成中发生模糊、重影和动作撕裂等问题。
  4. 难以实现多 GPU 扩展:现有的序列并行带来大量通信开销抵消了计算的加速。在以单帧延迟为主导的实时负载下,无法扩展到多 GPU 并行推理。

综上所述,这些挑战表明,实时视频扩散无法仅依赖离线生成范式的延伸,而亟需一种从系统层面重新设计、以实时约束为核心目标的推理架构。

深入分析:内存带宽约束导致的性能受限

为了对现有系统进行加速优化,文章深入分析了当前推理系统所处的性能瓶颈模式(Performance Regime):

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 3 上图:Roofline 模型分析不同批次大小和并行模式下的系统性能瓶颈;下图:不同并行方式下的通信开销。

先前双向注意力 DiT 主要受计算能力限制,而在自回归视频生成中,尤其是低延迟的单帧 latent 参数下,因为需要加载长序列的 KV Cache,却只对当前输入进行计算,使得内存访问开销超过计算开销,系统性能由内存带宽而非算力主导。

通过 Nsight Systems 等性能分析工具对实际推理过程中的内存带宽利用率、计算资源使用情况气泡时间进行分析,并结合理论计算量与内存访问量估计,团队验证了当前系统确实处于内存带宽受限(Memory-bound)的性能瓶颈状态。

进一步地,序列并行(Sequence Parallelism)方法(如 Deepspeed-Ulysses 和 Ring-Attention)在推理中需要在每个 DiT Block 执行一次跨设备通信,从而引入了显著的通信开销。通信过程本质上也属于数据搬运操作,与内存访问共同加剧了系统数据传输开销。

上述发现促使作者从优化内存 - 计算平衡并降低并行推理通信开销入手,构建全新的流式视频生成系统。

方法:算法与系统层面的联合优化

综合前面对现有挑战和性能瓶颈的分析,研究团队从算法和系统两方面给出了解决方案。

打开网易新闻 查看精彩图片

图 4 系统的整体流程图

算法层面:为了缓解长视频生成下自回归模型的误差累计和风格漂移的问题,文章引入 Sink-tokens 和动作感知的加噪机制,具体的方法如下:

  1. Sink-token 和滚动 KV Cache:早期生成的帧受误差累计的影响小,故将其 KV 保持在 KV Cache 中作为 Sink-token 指导后续的生成。同时后续的 KV Cache 滚动更新,以实现无限长流式生成;
  2. 动作感知的动态加噪机制:根据相邻帧之间的 L2 距离估计视频的运动强度,并自适应调整加噪比例。在运动剧烈时降低噪音以保留运动一致性,在运动较弱时提高噪音以提升生成质量。

打开网易新闻 查看精彩图片

图 5 动作程度估计和动态噪音策略示例

系统层面:在内存带宽受限情境下提升吞吐量,StreamDiffusionV2 采用了流水线化批量去噪策略,再将其扩展至模型网络层的流水线并行,并加入了其他辅助的高效推理设计,具体内容如下:

  1. SLO 感知的流水线化的批量去噪(Batch Denoising):采用流水线化批量去噪,将不同噪音程度的帧组成流水线并行处理,使得每次 DiT 推理都得到去噪完全的帧;同时使用 SLO 感知的 profiling 动态确定批处理规模和调度参数;
  2. 模型网络层的流水线并行(Pipeline Parallelism):将 DiT 的多 GPU 流水线并行推理结合分片批量去噪,实现稳定的逐帧生成;利用异步通信使计算和通信重合,并引入 DiT 层调度器平衡不同设备开销,以缓解流水线气泡,提升系统整体吞吐量。

打开网易新闻 查看精彩图片

图 6 批量去噪和流水线并行示意图

https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA
打开网易新闻 查看精彩图片
https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA

视频 1 并行推理示例动画

通过这样的协同设计,StreamDiffusionV2 系统实现了高效、稳定的流式生成,并通过 Cache 机制来保证时间一致性和生成质量。

实验结果

StreamDiffusionV2 论文实现了低延迟和高吞吐的平衡,具体效果如何,一图胜千言!

打开网易新闻 查看精彩图片

图 7 不同设置下吞吐量结果,1.3B 模型,H100 和 4090 显卡

打开网易新闻 查看精彩图片

图 8 不同设置下吞吐量结果,14B 模型,H100 显卡

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 9 上图:第一帧时间对比,体现了 StreamDiffusionV2 的低延迟优势;下图:系统端到端延迟统计分布图,StreamDiffusionV2 有着紧密分布,低抖动,并达到亚秒级实时应用要求。

与此同时,该系统同时也在实现了稳定的高质量生成,拥有良好的时间一致性,并对复杂 prompt 有着更好的适应。

https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA
打开网易新闻 查看精彩图片
https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA

视频 2 Video-to-video 生成结果对比。从左至右,从上到下,分别为原视频、StreamDiffusion、CausVid,以及 StreamDiffusionV2。

https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA
打开网易新闻 查看精彩图片
https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA

视频 3 实际场景交互式生成应用实例

总结与展望

StreamDiffusionV2 弥合了离线视频扩散与实时直播之间长期存在的系统鸿沟。使高质量生成式直播首次具备工程可行性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 10 上图:计算设备的计算能力和内存带宽变化趋势,内存带宽的增长速度更慢;下图:自回归视频生成模型,计算和内存操作开销比例随输入帧序列长度的变化趋势。

进一步地,这一工作顺应了硬件与算法发展的长期趋势。由于 GPU 计算能力增长速度明显超过显存带宽,自回归推理正处于内存访问约束区域;与此同时,视频生成算法不断采用更高压缩率与更结构化的表示方式,也进一步加剧了推理阶段的内存访问压力。

在这样的演进背景下,围绕内存访问与实时约束进行系统级调度设计,将成为生成式服务的关键能力。

StreamDiffusionV2 提供的不仅是一套可运行的系统方案,更是一种面向未来实时生成场景的设计思路。

随着生成模型持续扩展规模与应用场景,这种以 SLO 为核心、以系统协同为驱动的流式推理架构,有望成为下一阶段生成式直播基础设施的重要方向。

作者介绍

本文作者来自德克萨斯大学奥斯汀分校、加州大学伯克利分校、Nunchaku AI、斯坦福大学、独立研究者、First Intelligent、麻省理工学院以及 Shizuku AI。

该工作的主要研究由德克萨斯大学奥斯汀分校团队完成,第一作者为博士生冯天瑞,通讯作者为助理教授徐晨丰。