最近,文本生成视频技术在将基于 Transformer 的扩散模型扩展至数十亿参数的过程中取得了显著突破,能够生成高质量的视频内容。然而,现有模型多为离线生成短视频片段,无法满足实时交互等应用场景的需求。为了解决这一问题,加利福尼亚大学与 Meta 联合提出了StreamDiT模型,一种面向流式生成的视频模型。(链接在文章底部)
StreamDiT 的训练采用了流匹配(flow matching)方法,并引入了移动缓冲区(moving buffer)机制。在此基础上,研究者设计了混合训练策略,通过对缓冲帧采用多种分区方案,显著提升生成内容的连贯性与视觉质量。训练了一个40 亿参数(4B)的 StreamDiT 模型,并提出了专门用于该模型的多步骤蒸馏方法,将采样步骤压缩至8 步。最终,蒸馏模型可在单块GPU上实现每秒16 帧(16 FPS)的实时性能,支持512p 分辨率的视频流生成。
01 技术原理
StreamDiT 专为实现实时响应和交互性而设计,其推理流程也围绕这一目标进行架构优化。为了降低延迟,模型中的 DiT 去噪器、TAE(即 VAE)解码器以及文本编码器被部署在不同的进程中并行运行。同时,一个提示回调函数持续运行,实时监听用户的新提示词输入。
当用户输入新的提示词时,文本编码器会将其转换为文本嵌入(text embedding),并将该嵌入传递给 DiT 所在的线程,用以更新当前使用的嵌入信息。接下来的去噪步骤会通过交叉注意力机制(cross-attention)使用更新后的嵌入信息,从而动态调整文本引导的生成方向。这种设计使得用户能够通过不断输入提示词,实时地干预和修改视频内容,实现高效流畅的交互式生成体验。
将该方法应用于一个30B 参数规模的模型,以测试其可扩展性(注意:StreamDiT-30B 在单块 H100 上无法实现实时运行)。
与现有方法的比较:在自研的基础 4B T2V 模型中实现了现有方法,以便与 StreamDiT 进行公平对比(apples-to-apples comparison)。
StreamDiT 实现了前所未有的实时性能,在单块 GPU 上即可达到 16 FPS,突破了以往文本生成视频模型的限制,为交互式应用打开了全新可能。但StreamDiT 模型的参数量为40亿(4B),在开源和闭源的大模型中属于中等规模。因此,其基础的文本转视频(T2V)生成质量仍受到模型容量的限制,在生成的一些视频中也存在伪影问题。
https://arxiv.org/pdf/2507.03745欢迎交流~,带你学习AI,了解AI
热门跟贴