StreamDiffusionV2: 将视频生成从「离线生成」带入「实时交互」|内存|流式|算法|阶跃星辰

扩散生成模型的发展改变了实时视频直播的内容创作，一些基于图片扩散模型的 AI 直播系统如 StreamDiffusion 和 StreamV2V 以其方便可控和快速响应的特点被广泛应用。但是这些基于图片扩散模型的方法时间一致性较差，而视频扩散模型生成过程中的前后帧依赖关系提供了极佳的时间一致性。

最近的一些自回归视频生成研究能够促使视频生成的吞吐量接近「实时」的目标，这使得在流式直播中应用这些模型成为可能。

然而，一个被忽视的问题尚未得到解答：吞吐量达到「实时」表现但忽略延迟的系统，能直接用于实时交互生成吗？

近日，一项已经被计算机系统顶级会议 MLSys 2026 接收的工作 StreamDiffusionV2，对这一问题进行了详细讨论并给出了解决方案。来自德克萨斯大学奥斯汀分校等机构的研究者组成的团队提出了一种无需训练、面向交互式直播的流式视频生成系统。该系统可在多种类型 GPU 上稳定运行，同时实现低延迟与高质量生成。

StreamDiffusionV2 已全面开源，对个人用户部署友好，在未应用 TensorRT 或量化的情况下，能够在仅配备双卡 RTX 4090 的设备上稳定 16 FPS 实时推理。其在 H100 上首帧延迟低于 0.5 秒，并在 4 卡设备上稳定实现 14B 模型 58.28 FPS、1.3B 模型 64.52 FPS 的吞吐量。

论文链接：https://arxiv.org/abs/2511.07399
项目主页：https://streamdiffusionv2.github.io/
代码链接：https://github.com/chenfengxu714/StreamDiffusionV2

图 1 有限长度的批量视频生成 vs. 该研究提出的流式低延迟的无限长度视频生成

挑战：实时交互式生成的系统性瓶颈

最近，以 CausVid 和 Self-Forcing 等为代表的自回归视频生成模型（Auto-regressive Video Generation），在一定程度上维持了生成质量的同时极大地加快了推理速度。

尽管这些方法亦能在离线模式下进行视频到视频（Video-to-video）生成，但其推理范式仍然难以直接适配实时直播场景。通过分析，研究团队指出当前方法面临以下挑战：

图 2 Baseline 视频生成模型在 V2V 任务中的缺陷

实时 SLO 无法满足：现有视频扩散模型主要面向离线生成优化，虽然提升了整体吞吐量，却显著拉高了首帧延迟，且难以满足直播场景对每一帧严格时限和低抖动的服务级目标（SLO）。
长时间生成中的时序漂移：主流视频扩散系统在持续运行的直播场景中，内容分布与用户输入会不断变化，加剧了自回归视频生成模型的误差累积，导致生成过程中出现风格漂移和时间一致性退化。
高速动作下的画面撕裂：现有模型多基于慢动作或平稳运动数据训练，在面对快速镜头切换或剧烈运动时表现受限，生成中发生模糊、重影和动作撕裂等问题。
难以实现多 GPU 扩展：现有的序列并行带来大量通信开销抵消了计算的加速。在以单帧延迟为主导的实时负载下，无法扩展到多 GPU 并行推理。

综上所述，这些挑战表明，实时视频扩散无法仅依赖离线生成范式的延伸，而亟需一种从系统层面重新设计、以实时约束为核心目标的推理架构。

深入分析：内存带宽约束导致的性能受限

为了对现有系统进行加速优化，文章深入分析了当前推理系统所处的性能瓶颈模式（Performance Regime）：

图 3 上图：Roofline 模型分析不同批次大小和并行模式下的系统性能瓶颈；下图：不同并行方式下的通信开销。

先前双向注意力 DiT 主要受计算能力限制，而在自回归视频生成中，尤其是低延迟的单帧 latent 参数下，因为需要加载长序列的 KV Cache，却只对当前输入进行计算，使得内存访问开销超过计算开销，系统性能由内存带宽而非算力主导。

通过 Nsight Systems 等性能分析工具对实际推理过程中的内存带宽利用率、计算资源使用情况气泡时间进行分析，并结合理论计算量与内存访问量估计，团队验证了当前系统确实处于内存带宽受限（Memory-bound）的性能瓶颈状态。

进一步地，序列并行（Sequence Parallelism）方法（如 Deepspeed-Ulysses 和 Ring-Attention）在推理中需要在每个 DiT Block 执行一次跨设备通信，从而引入了显著的通信开销。通信过程本质上也属于数据搬运操作，与内存访问共同加剧了系统数据传输开销。

上述发现促使作者从优化内存 - 计算平衡并降低并行推理通信开销入手，构建全新的流式视频生成系统。

方法：算法与系统层面的联合优化

综合前面对现有挑战和性能瓶颈的分析，研究团队从算法和系统两方面给出了解决方案。

图 4 系统的整体流程图

算法层面：为了缓解长视频生成下自回归模型的误差累计和风格漂移的问题，文章引入 Sink-tokens 和动作感知的加噪机制，具体的方法如下：

Sink-token 和滚动 KV Cache：早期生成的帧受误差累计的影响小，故将其 KV 保持在 KV Cache 中作为 Sink-token 指导后续的生成。同时后续的 KV Cache 滚动更新，以实现无限长流式生成；
动作感知的动态加噪机制：根据相邻帧之间的 L2 距离估计视频的运动强度，并自适应调整加噪比例。在运动剧烈时降低噪音以保留运动一致性，在运动较弱时提高噪音以提升生成质量。

图 5 动作程度估计和动态噪音策略示例

系统层面：在内存带宽受限情境下提升吞吐量，StreamDiffusionV2 采用了流水线化批量去噪策略，再将其扩展至模型网络层的流水线并行，并加入了其他辅助的高效推理设计，具体内容如下：

SLO 感知的流水线化的批量去噪（Batch Denoising）：采用流水线化批量去噪，将不同噪音程度的帧组成流水线并行处理，使得每次 DiT 推理都得到去噪完全的帧；同时使用 SLO 感知的 profiling 动态确定批处理规模和调度参数；
模型网络层的流水线并行（Pipeline Parallelism）：将 DiT 的多 GPU 流水线并行推理结合分片批量去噪，实现稳定的逐帧生成；利用异步通信使计算和通信重合，并引入 DiT 层调度器平衡不同设备开销，以缓解流水线气泡，提升系统整体吞吐量。