科学家打造文生视频大模型，含四个高效变种可更好处理时空维度，将Transformers与扩散模型完美结合

DeepTech深科技

2024-05-12 17:36 ·北京

“有点遗憾的是，从 Sora 所放出的技术报告来看，OpenAI 的整体设计和我们的成果遵循了相似的技术路线，如果我们能拥有同等级别的计算规模，会不会 Sora 就可以诞生在中国了（苦笑）。”对于自己和同事研发的文生视频模型，上海人工智能实验室研究员王耀晖表示。

图 | 王耀晖（来源：王耀晖）

2023 年 11 月，王耀晖等人将代码加以开源，并于 2024 年 1 月将论文放在网上。

他说：“当时受到的关注并不算多，直到 Sora 的出现人们才发现原来我们已经开源了类似工作。”

“据我了解，我们的成果是世界上第一个开源的文生视频 DiT 模型，目前大部分复现 Sora 的 open-sora 工作，都参考了我们的开源代码和模型设计。”王耀晖说。

他继续表示：“其实这也是我一直所坚持的观点，好的研究要超出目前人们的认知去定义未来。”

图 | 王耀晖使用自己的模型生成的内容（来源：arXiv）

研究中，他和同事通过大规模的实验，论证了视频 DiT 模型的可行性，并给出了一系列的模型结构设计与训练优化方法，最终证明本次模型具有通用的能力。

目前，视频生成的应用集中在社交、影视、教育、广告等行业。

利用本次模型王耀晖等人已经可以制作简单的短视频广告、电影宣传片等。

随着本次技术的慢慢成熟，预计视频生成技术会成为影视制作的重要辅助工具，助力于减少制作成本。

同时，视频生成技术作为潜在的“世界模拟器”，或许能和其他学科形成交叉影响，从而用于自动驾驶、机器人、AI4Science 等领域。

据介绍，基于机器学习的视频生成技术，一直是王耀晖的研究方向，从 2018 年在法国国家信息与自动化研究所读博开始，他就开始研究如何通过设计机器学习方法来生成逼真视频。

在当时，GAN 是生成模型中最有效的方法，因此他在读博期间的所有工作都是基于 GAN 开展。

当时，他的一系列工作曾定义了关于视频生成的一些基础任务，也设计了一些网络结构和学习方法。

王耀晖表示：“我在当时的很多设计，也成了目前视频生成模型所使用的一些基本技术，但是因为太过古早，可能目前很多人并不了解。”

回国之后，扩散模型与通用人工智能逐渐兴起，他便将之前在 GAN 上的积累，慢慢地转移设计视频扩散模型。

一开始，他主要生成一些专有内容比如人脸的视频，后来开始尝试生成关于人体的视频，目前则致力于解决通用视频生成的现有问题。

据了解，领域内关于扩散模型的一些初期工作，比如 DDPM、Stable Diffusion 等都是基于 UNet 网络设计。

而当下是一个大模型能力涌现的时代，在设计模型时往往需要展现出潜在的 Scalability 能力，这时 UNet 结构就无法再顺应时代发展。

所以，王耀晖和同事一直在思考，是否可以像大语言模型那样，设计出基于 Transformer 的通用扩散模型，从而实现大规模的视频生成？

当王耀晖等人正在构思上述课题的时候，Sora 的相关论文的作者之一比尔·皮布尔斯（Bill Peebles），发表了使用 DiT（Diffusion Transformer）进行图像生成的论文。

这也坚定了王耀晖等人沿着上述技术路线，设计视频 DiT 模型的想法。

事实上，王耀晖想要解决的问题很简单：即希望将 Transformer 的结构用于视频扩散模型之中，从而让模型具备通用性，进而能在超大规模算力和数据加持下，实现持续的扩展性。

与此同时，他们希望在视频生成模型中也能观察到一些能力的涌现，并探寻出类似于大语言模型中的 Scaling Law。

然而，文生视频比文生图更加复杂。并且在时空层面上，文生视频需要使用结构化程度更高的的数据形式。

因此，如何设计模型结构和学习方法，让模型能够很好地学习时空分布，并能生成高质量内容一直一个难题。

2022 年，课题组预见到在视频生成一定也会和大模型一样朝着 Transformer 这种架构去发展，那时他们就已经决定去设计视频 DiT。

通过结合王耀晖在研究 GAN 时积累的经验、以及在视频理解问题上所积累的知识，他和同事首先设计了基本的模型结构大框架，并在小规模数据上开展实验。

由于没有可以明确参考的前期工作，课题组并不知道所构想的模型是否有效。

为此，他们花费大量时间尝试证明视频 DiT 结构在模型结构上的可行性，也提出了好几种模型变体。

（来源：arXiv）

通过前期实验他们验证了视频 DiT 结构的可行性，随后开始着手优化模型与训练中的细节。

他们发现：很多实现方式上的不同，会影响模型的最终性能。

于是，该团队进一步地探究模型训练方式、token 的提取设计、条件的注入方法等。

有些借鉴了 GAN 的思想，有些借鉴了图像 DiT 的设计，还有一些是他们在其他视频生成成果中借鉴的技巧。

开展大规模实验之后，他们基本明确了整个模型的训练方式和设计细节，并在学术数据集上取得了最优的量化评测。

在学术集上取得的实验成功，将他们带到了一个更大的十字路口：即通过继续放大模型规模，以便探究模型在文生视频这一最终试验场中的表现。

基于所拥有的计算资源，他们将模型规模初步定在 1B 左右，并决定从预训练文生图工作进行初始化，以此获得更快的收敛速度，从而检验本次模型在文生视频中的表现。

通过一段时间的训练，该团队发现所设计的整体架构，能被成功用于文生视频任务。

与此同时，他们也在持续地训练模型，以探究更大规模的数据，是否能带来更好的结果。

王耀晖表示：“我们的研究其实开始得很早，最初版的原型验证大约在 2023 年初就已经有了。”

但是，因为计算资源有限，并行大规模试验也比较困难。因此，对于很多问题的探究，课题组都需要等待更长时间来获得结论。

最终，相关论文以《Latte：用于视频生成的潜在扩散变压器》（Latte：Latent Diffusion Transformer for Video Generation）为题发在 arXiv[1]，马鑫是第一作者，王耀晖担任通讯作者。

图 | 相关论文（来源：arXiv）

下一步，王耀晖等人会着重致力于提高模型的效率。

同时，他们还计划进行生成模型方法的创新。目前，他们是通过实验解决问题，后续希望能探究出一些系统性理论依据来指导实验。

另据悉，王耀晖从读博起就一直很喜欢物理学家理查德·费曼（Richard Feynman）的一句话 “What I cannot create，I do not understand。”

因此，他希望可以通过视频生成这一技术，更好地重建和生成世界，进而理解世界运行的基本规律。

参考资料：

1.https://arxiv.org/pdf/2401.03048v1

排版：刘雅坤

01/ 科学家用二氧化碳合成多碳醇，已完成8000小时稳定性评价，助力缓解过度依赖化石资源

02/ 科学家制备梯度石墨烯气凝胶，实现高浓度盐水持续淡化，并构建太阳能脱盐灌溉系统

03/ AlphaFold3来了！无需输入任何结构信息，生物分子预测精度高出50%

04/ 科学家研发高熵合金纳米颗粒，尺寸在3.5纳米左右，能模拟太阳光条件下的二氧化碳还原

05/ 揭开化学反应“黑匣子”，杨学明院士团队联合发展控制氢分子立体取向新方法，精准调控化学反应

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴