实时生成视频！StreamDiT每秒16帧，单卡生成|streamdit|深度思考模型|编码器

最近，文本生成视频技术在将基于 Transformer 的扩散模型扩展至数十亿参数的过程中取得了显著突破，能够生成高质量的视频内容。然而，现有模型多为离线生成短视频片段，无法满足实时交互等应用场景的需求。为了解决这一问题，加利福尼亚大学与 Meta 联合提出了StreamDiT模型，一种面向流式生成的视频模型。（链接在文章底部）

StreamDiT 的训练采用了流匹配（flow matching）方法，并引入了移动缓冲区（moving buffer）机制。在此基础上，研究者设计了混合训练策略，通过对缓冲帧采用多种分区方案，显著提升生成内容的连贯性与视觉质量。训练了一个40 亿参数（4B）的 StreamDiT 模型，并提出了专门用于该模型的多步骤蒸馏方法，将采样步骤压缩至8 步。最终，蒸馏模型可在单块GPU上实现每秒16 帧（16 FPS）的实时性能，支持512p 分辨率的视频流生成。

01 技术原理

StreamDiT 专为实现实时响应和交互性而设计，其推理流程也围绕这一目标进行架构优化。为了降低延迟，模型中的 DiT 去噪器、TAE（即 VAE）解码器以及文本编码器被部署在不同的进程中并行运行。同时，一个提示回调函数持续运行，实时监听用户的新提示词输入。

当用户输入新的提示词时，文本编码器会将其转换为文本嵌入（text embedding），并将该嵌入传递给 DiT 所在的线程，用以更新当前使用的嵌入信息。接下来的去噪步骤会通过交叉注意力机制（cross-attention）使用更新后的嵌入信息，从而动态调整文本引导的生成方向。这种设计使得用户能够通过不断输入提示词，实时地干预和修改视频内容，实现高效流畅的交互式生成体验。

将该方法应用于一个30B 参数规模的模型，以测试其可扩展性（注意：StreamDiT-30B 在单块 H100 上无法实现实时运行）。

与现有方法的比较：在自研的基础 4B T2V 模型中实现了现有方法，以便与 StreamDiT 进行公平对比（apples-to-apples comparison）。

StreamDiT 实现了前所未有的实时性能，在单块 GPU 上即可达到 16 FPS，突破了以往文本生成视频模型的限制，为交互式应用打开了全新可能。但StreamDiT 模型的参数量为40亿（4B），在开源和闭源的大模型中属于中等规模。因此，其基础的文本转视频（T2V）生成质量仍受到模型容量的限制，在生成的一些视频中也存在伪影问题。