单卡9.4 FPS极速视频生成！MIT携手Adobe推出快速因果生成器CausVid|Adobe|adobe|causvid

当前的视频扩散模型生成效果非常出色，但在交互式应用中却存在一个大问题：它们依赖双向注意力机制。这意味着生成单帧视频时，模型需要处理整个序列，包括未来的帧，导致效率非常低下。为了解决这个问题，MIT-Adobe对预训练的双向扩散变换器进行了改造，让它变成一个因果变换器，可以“即用即生成”视频帧。（链接在文章底部，后期会开源）

为了进一步降低延迟，把“分布匹配蒸馏”（DMD）技术扩展到了视频领域，将原来需要50步的扩散模型压缩成仅需4步的生成器。模型可以以 9.4 FPS 的速度在单张 GPU 上流畅地生成高质量视频。此外，CausVid方法还支持流媒体视频到视频的转换、图像到视频的生成，以及动态提示的零样本生成。

01 技术原理

传统的双向扩散模型（下图（上））虽然输出质量很高，但生成速度太慢，生成一个128帧的视频需要整整219秒。而且，用户必须等到整个视频生成完成后，才能看到结果。相比之下，CausVid方法（下图（下））通过将双向扩散模型“压缩”成一个只需几步的因果生成器，大幅减少了计算开销。CausVid初始延迟仅为1.3秒，随后以大约9.4帧/秒的速度连续生成视频帧，像流媒体一样实时输出。这让视频内容的创作更加高效和互动！

为了进一步降低延迟，将分布匹配蒸馏（DMD）扩展到视频上，将50步的扩散模型蒸馏成一个4步的生成器。为了确保蒸馏的稳定性和高质量，引入了一种基于教师模型ODE轨迹的学生初始化方案，并采用了非对称蒸馏策略，即使用双向教师来监督一个因果学生模型。这种方法有效地减轻了自回归生成中的误差累积问题，使得即使只在短视频片段上进行训练，也能够合成时长较长的视频。

CausVid模型在 VBench-Long 数据集上取得了总分 82.85，超越了所有已发布的方法，同时还能在单张 GPU 上以 9.4 帧/秒的速度实现快速流式推理，这在业界独一无二。雷达图清晰展示了CausVid方法在多个关键指标上的全面优势，包括动态表现、画面美感、图像质量、物体类别、多物体场景以及人类动作等方面。

02 演示结果

文字转10秒短视频生成：CausVid模型从文本生成高质量视频，初始延迟仅为 1.3 秒，之后在单个 GPU 上以大约 9.4 FPS 的流式传输方式连续生成帧。

文字转60秒长视频生成：虽然生成器是在 10 秒视频上进行训练的，但其自回归性质使其能够使用滑动窗口推理生成无限长度的视频。

零样本图像到视频生成：由于模型的自回归性质，本质上支持零样本（文本条件）图像到视频的生成。

https://causvid.github.io/causvid_paper.pdf

欢迎交流～，带你学习AI，了解AI

单卡9.4 FPS极速视频生成！MIT携手Adobe推出快速因果生成器CausVid

热搜

热门跟贴

热搜

热门跟贴

相关推荐

营收利润增长，Adobe市值一夜蒸发2400亿元

Pr：Adobe Stock SFX 音效类别

车主吐槽自己的国产车，还没开几年呢，车内塑料比饼干还脆

李斌：蔚来现在还有422亿现金，哪怕一直亏损也能撑不止五年

江苏宿迁，迎来首位女市委书记

网友：醒醒吧！深圳龙岗一小区都跌成狗了！460多万到265万成交了

当下最悲哀的事，就是无法唤醒沉睡的人

一群黑人男子在做祈祷，鞋子扔在一旁

在叙华人：物价明显上涨 新政府调整了手机的税收政策

ChatGPT拒绝谈论这个人，没人知道为什么

实拍斗牛比赛现场：红牛和黑牛双方人马大打出手陷入混战

英伟达员工几年忘操作股票账户 股价飙升身价直接破亿

Ilya向全世界宣布：预训练结束了！全球AI数据耗尽，超级智能才是未来

湖北一爹爹邀网友家中“奔现”，午睡醒来后竟发现

年轻人抛弃搜索引擎

李在明称要尽快罢免尹锡悦

数百业主烟台买洋房后被告知“政策变动”不能交房，只能置换公寓或高层，开发商称没有退房方案

100万贱卖，曾坐拥2.4亿用户的“互联网全球500强”，被时代抛弃？

俄乌战争特别报道：创纪录的2024

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

在叙华人：物价明显上涨新政府调整了手机的税收政策

英伟达员工几年忘操作股票账户股价飙升身价直接破亿