Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

AI先锋官

2024-12-18 18:01 ·北京

作者｜Jimmy

来源｜AI先锋官

可能大多数人对AI生成视频的印象还停留在威尔史密斯吃意面的抽象视频上……

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

种种魔性画面简直犹如野生菌中毒既视感，因其过于抽象，甚至还吸引到了威尔史密斯本尊的模仿。

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

但如果小编说， AI 生成视频已经发展到下面这样

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

这样

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

这样

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

以及这样了呢

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

上面的几段视频分别由 Sora和谷歌新发布的 Veo2生成。

先卖个关子，各位可以猜猜看，哪段视频是由 Veo2生成的，哪段视频又是我们的老朋友 Sora生成的。

话说，就在当地时间的 12月 16日，也就是 OpenAI12日发布会的第 7天，谷歌 DeepMind突然推出了其第二代视频生成模型 -Veo2。

不仅支持生成最高4K分辨率的视频，也将最长视频长度提升到了前所未有的 2分钟，颇有前来踢馆 OpenAI的味道 ……

据 DeepMind的发布会报道， Veo2不仅可以更好地理解真实世界的物理规律，还可以理解电影语言，能听懂镜头参数，景深，景别，光效等专业术语甚至还能指定拍摄角度，动作和风格。

在盲测中也以号称以两倍的得票率领先于 Sora、海螺和可灵。

谷歌计划明年初将其上线，还会整合进 YouTube用于创作短视频。

如果该计划可行，那么今后电影与短视频的拍摄，无疑将进入 AI时代，谷歌大有凭借 Veo2将 Sora拍在沙滩上的势头。

在技术方面， Veo2 使用了 4D卷积神经网络。4D CNN 结合了3D卷积和时间序列的深度特征提取，允许模型在保持高分辨率的同时，处理视频中的动作细节和时空关系。

值得一提的是， Veo2还采用了独特的 GAN 架构，其中，生成器负责生成视频内容，判别器则判断生成视频与真实视频的差异，通过不断的对抗优化，提升了模型生成的逼真度。

不继续卖关子了，揭晓答案。

前三个视频的画面看起来更符合现实世界的物理规律，它们是由 Veo2生成，第四个视频则由 Sora生成。

从所发布作品来看，Veo2的确要优于Sora，但Veo2真的如谷歌宣传的那样脚踢Sora、拳打可灵，是 AI 视频领域的新王吗？在其正式开放前，还难定论。希望它不会如 sora 那样跳票。

我们不妨做下简单分析，在学习机制方面， Veo2和 Sora同样都采用了自注意力机制（Self-Attention）来捕捉长时间跨度内的视频内容和情感信息。

而在最关键的复杂场景处理方面，Sora基于RNN和 Transformer这种专门设计用于序列数据的架构。

对于复杂的情节生成， Sora 能够非常好地保持整个情节的连贯性，并处理长时间跨度内的情感或语义变化。

在小编看来， Veo2在上线后很可能同样面临与 sora相同的问题，模型在展示时，通常是针对某些特定的生成任务，比如单一场景或简单的叙事任务。

在实际应用中，模型可能需要处理更复杂的、长时间跨度的情节、更多的变量，甚至需要根据用户的输入生成高度多样化的内容，这对模型的性能提出了更高的要求。

所以，不知 Veo2上线后是否同样会面临和 Sora一样，不如预期，被用户疯狂吐槽。

这里面，用户过高的期望、硬件资源限制、训练数据局限性以及生成内容的复杂性等因素，都会成为限制Veo2的性能的重要因素。

Google也坦言，其生成模型并非“完美”。视频生成过程中难免会出现一些“幻觉”，比如多出的手指或意外出现的物体。

让我们且等且看吧！

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴