作者|Jimmy

来源|AI先锋官

可能大多数人对AI生成视频的印象还停留在威尔史密斯吃意面的抽象视频上……

 Sora发布即翻车,谷歌Veo2偷塔AI视频新王?
打开网易新闻 查看更多视频
Sora发布即翻车,谷歌Veo2偷塔AI视频新王?

种种魔性画面简直犹如野生菌中毒既视感,因其过于抽象,甚至还吸引到了威尔史密斯本尊的模仿。

 Sora发布即翻车,谷歌Veo2偷塔AI视频新王?
打开网易新闻 查看更多视频
Sora发布即翻车,谷歌Veo2偷塔AI视频新王?

但如果小编说, AI 生成视频已经发展到下面这样

 Sora发布即翻车,谷歌Veo2偷塔AI视频新王?
打开网易新闻 查看更多视频
Sora发布即翻车,谷歌Veo2偷塔AI视频新王?

这样

 Sora发布即翻车,谷歌Veo2偷塔AI视频新王?
打开网易新闻 查看更多视频
Sora发布即翻车,谷歌Veo2偷塔AI视频新王?

这样

 Sora发布即翻车,谷歌Veo2偷塔AI视频新王?
打开网易新闻 查看更多视频
Sora发布即翻车,谷歌Veo2偷塔AI视频新王?

以及这样了呢

 Sora发布即翻车,谷歌Veo2偷塔AI视频新王?
打开网易新闻 查看更多视频
Sora发布即翻车,谷歌Veo2偷塔AI视频新王?

上面的几段视频分别由 Sora和谷歌新发布的 Veo2生成。

先卖个关子,各位可以猜猜看,哪段视频是由 Veo2生成的,哪段视频又是我们的老朋友 Sora生成的。

话说,就在当地时间的 12月 16日,也就是 OpenAI12日发布会的第 7天,谷歌 DeepMind突然推出了其第二代视频生成模型 -Veo2。

不仅支持生成最高4K分辨率的视频,也将最长视频长度提升到了前所未有的 2分钟,颇有前来踢馆 OpenAI的味道 ……

据 DeepMind的发布会报道, Veo2不仅可以更好地理解真实世界的物理规律,还可以理解电影语言,能听懂镜头参数,景深,景别,光效等专业术语甚至还能指定拍摄角度,动作和风格。

在盲测中也以号称以两倍的得票率领先于 Sora、海螺和可灵。

打开网易新闻 查看精彩图片

谷歌计划明年初将其上线,还会整合进 YouTube用于创作短视频。

如果该计划可行,那么今后电影与短视频的拍摄,无疑将进入 AI时代,谷歌大有凭借 Veo2将 Sora拍在沙滩上的势头。

在技术方面, Veo2 使用了 4D卷积神经网络。4D CNN 结合了3D卷积和时间序列的深度特征提取,允许模型在保持高分辨率的同时,处理视频中的动作细节和时空关系。

值得一提的是, Veo2还采用了独特的 GAN 架构,其中,生成器负责生成视频内容,判别器则判断生成视频与真实视频的差异,通过不断的对抗优化,提升了模型生成的逼真度。

不继续卖关子了,揭晓答案。

前三个视频的画面看起来更符合现实世界的物理规律,它们是由 Veo2生成,第四个视频则由 Sora生成。

从所发布作品来看,Veo2的确要优于Sora,但Veo2真的如谷歌宣传的那样脚踢Sora、拳打可灵,是 AI 视频领域的新王吗?在其正式开放前,还难定论。希望它不会如 sora 那样跳票。

打开网易新闻 查看精彩图片

我们不妨做下简单分析,在学习机制方面, Veo2和 Sora同样都采用了自注意力机制(Self-Attention)来捕捉长时间跨度内的视频内容和情感信息。

而在最关键的复杂场景处理方面,Sora基于RNN和 Transformer这种专门设计用于序列数据的架构。

对于复杂的情节生成, Sora 能够非常好地保持整个情节的连贯性,并处理长时间跨度内的情感或语义变化。

在小编看来, Veo2在上线后很可能同样面临与 sora相同的问题,模型在展示时,通常是针对某些特定的生成任务,比如单一场景或简单的叙事任务。

在实际应用中,模型可能需要处理更复杂的、长时间跨度的情节、更多的变量,甚至需要根据用户的输入生成高度多样化的内容,这对模型的性能提出了更高的要求。

所以,不知 Veo2上线后是否同样会面临和 Sora一样,不如预期,被用户疯狂吐槽。

这里面,用户过高的期望、硬件资源限制、训练数据局限性以及生成内容的复杂性等因素,都会成为限制Veo2的性能的重要因素。

Google也坦言,其生成模型并非“完美”。视频生成过程中难免会出现一些“幻觉”,比如多出的手指或意外出现的物体。

让我们且等且看吧!

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾