“有点遗憾的是,从 Sora 所放出的技术报告来看,OpenAI 的整体设计和我们的成果遵循了相似的技术路线,如果我们能拥有同等级别的计算规模,会不会 Sora 就可以诞生在中国了(苦笑)。”对于自己和同事研发的文生视频模型,上海人工智能实验室研究员王耀晖表示。

打开网易新闻 查看精彩图片

图 | 王耀晖(来源:王耀晖)

2023 年 11 月,王耀晖等人将代码加以开源,并于 2024 年 1 月将论文放在网上。

他说:“当时受到的关注并不算多,直到 Sora 的出现人们才发现原来我们已经开源了类似工作。”

“据我了解,我们的成果是世界上第一个开源的文生视频 DiT 模型,目前大部分复现 Sora 的 open-sora 工作,都参考了我们的开源代码和模型设计。”王耀晖说。

他继续表示:“其实这也是我一直所坚持的观点,好的研究要超出目前人们的认知去定义未来。”

打开网易新闻 查看精彩图片

图 | 王耀晖使用自己的模型生成的内容(来源:arXiv)

研究中,他和同事通过大规模的实验,论证了视频 DiT 模型的可行性,并给出了一系列的模型结构设计与训练优化方法,最终证明本次模型具有通用的能力。

目前,视频生成的应用集中在社交、影视、教育、广告等行业。

利用本次模型王耀晖等人已经可以制作简单的短视频广告、电影宣传片等。

随着本次技术的慢慢成熟,预计视频生成技术会成为影视制作的重要辅助工具,助力于减少制作成本。

同时,视频生成技术作为潜在的“世界模拟器”,或许能和其他学科形成交叉影响,从而用于自动驾驶、机器人、AI4Science 等领域。

据介绍,基于机器学习的视频生成技术,一直是王耀晖的研究方向,从 2018 年在法国国家信息与自动化研究所读博开始,他就开始研究如何通过设计机器学习方法来生成逼真视频。

在当时,GAN 是生成模型中最有效的方法,因此他在读博期间的所有工作都是基于 GAN 开展。

当时,他的一系列工作曾定义了关于视频生成的一些基础任务,也设计了一些网络结构和学习方法。

王耀晖表示:“我在当时的很多设计,也成了目前视频生成模型所使用的一些基本技术,但是因为太过古早,可能目前很多人并不了解。”

回国之后,扩散模型与通用人工智能逐渐兴起,他便将之前在 GAN 上的积累,慢慢地转移设计视频扩散模型。

一开始,他主要生成一些专有内容比如人脸的视频,后来开始尝试生成关于人体的视频,目前则致力于解决通用视频生成的现有问题。

据了解,领域内关于扩散模型的一些初期工作,比如 DDPM、Stable Diffusion 等都是基于 UNet 网络设计。

而当下是一个大模型能力涌现的时代,在设计模型时往往需要展现出潜在的 Scalability 能力,这时 UNet 结构就无法再顺应时代发展。

所以,王耀晖和同事一直在思考,是否可以像大语言模型那样,设计出基于 Transformer 的通用扩散模型,从而实现大规模的视频生成?

当王耀晖等人正在构思上述课题的时候,Sora 的相关论文的作者之一比尔·皮布尔斯(Bill Peebles),发表了使用 DiT(Diffusion Transformer)进行图像生成的论文。

这也坚定了王耀晖等人沿着上述技术路线,设计视频 DiT 模型的想法。

事实上,王耀晖想要解决的问题很简单:即希望将 Transformer 的结构用于视频扩散模型之中,从而让模型具备通用性,进而能在超大规模算力和数据加持下,实现持续的扩展性。

与此同时,他们希望在视频生成模型中也能观察到一些能力的涌现,并探寻出类似于大语言模型中的 Scaling Law。

然而,文生视频比文生图更加复杂。并且在时空层面上,文生视频需要使用结构化程度更高的的数据形式。

因此,如何设计模型结构和学习方法,让模型能够很好地学习时空分布,并能生成高质量内容一直一个难题。

2022 年,课题组预见到在视频生成一定也会和大模型一样朝着 Transformer 这种架构去发展,那时他们就已经决定去设计视频 DiT。

通过结合王耀晖在研究 GAN 时积累的经验、以及在视频理解问题上所积累的知识,他和同事首先设计了基本的模型结构大框架,并在小规模数据上开展实验。

由于没有可以明确参考的前期工作,课题组并不知道所构想的模型是否有效。

为此,他们花费大量时间尝试证明视频 DiT 结构在模型结构上的可行性,也提出了好几种模型变体。

打开网易新闻 查看精彩图片

(来源:arXiv)

通过前期实验他们验证了视频 DiT 结构的可行性,随后开始着手优化模型与训练中的细节。

他们发现:很多实现方式上的不同,会影响模型的最终性能。

于是,该团队进一步地探究模型训练方式、token 的提取设计、条件的注入方法等。

有些借鉴了 GAN 的思想,有些借鉴了图像 DiT 的设计,还有一些是他们在其他视频生成成果中借鉴的技巧。

开展大规模实验之后,他们基本明确了整个模型的训练方式和设计细节,并在学术数据集上取得了最优的量化评测。

在学术集上取得的实验成功,将他们带到了一个更大的十字路口:即通过继续放大模型规模,以便探究模型在文生视频这一最终试验场中的表现。

基于所拥有的计算资源,他们将模型规模初步定在 1B 左右,并决定从预训练文生图工作进行初始化,以此获得更快的收敛速度,从而检验本次模型在文生视频中的表现。

通过一段时间的训练,该团队发现所设计的整体架构,能被成功用于文生视频任务。

与此同时,他们也在持续地训练模型,以探究更大规模的数据,是否能带来更好的结果。

王耀晖表示:“我们的研究其实开始得很早,最初版的原型验证大约在 2023 年初就已经有了。”

但是,因为计算资源有限,并行大规模试验也比较困难。因此,对于很多问题的探究,课题组都需要等待更长时间来获得结论。

最终,相关论文以《Latte:用于视频生成的潜在扩散变压器》(Latte:Latent Diffusion Transformer for Video Generation)为题发在 arXiv[1],马鑫是第一作者,王耀晖担任通讯作者。

打开网易新闻 查看精彩图片

图 | 相关论文(来源:arXiv)

下一步,王耀晖等人会着重致力于提高模型的效率。

同时,他们还计划进行生成模型方法的创新。目前,他们是通过实验解决问题,后续希望能探究出一些系统性理论依据来指导实验。

另据悉,王耀晖从读博起就一直很喜欢物理学家理查德·费曼(Richard Feynman)的一句话 “What I cannot create,I do not understand。”

因此,他希望可以通过视频生成这一技术,更好地重建和生成世界,进而理解世界运行的基本规律。

打开网易新闻 查看精彩图片

参考资料:

1.https://arxiv.org/pdf/2401.03048v1

排版:刘雅坤

01/ 科学家用二氧化碳合成多碳醇,已完成8000小时稳定性评价,助力缓解过度依赖化石资源

02/ 科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

03/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

04/ 科学家研发高熵合金纳米颗粒,尺寸在3.5纳米左右,能模拟太阳光条件下的二氧化碳还原

05/ 揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应

打开网易新闻 查看精彩图片