作者|Jimmy
来源|AI先锋官
可能大多数人对AI生成视频的印象还停留在威尔史密斯吃意面的抽象视频上……
种种魔性画面简直犹如野生菌中毒既视感,因其过于抽象,甚至还吸引到了威尔史密斯本尊的模仿。
但如果小编说, AI 生成视频已经发展到下面这样
这样
这样
以及这样了呢
上面的几段视频分别由 Sora和谷歌新发布的 Veo2生成。
先卖个关子,各位可以猜猜看,哪段视频是由 Veo2生成的,哪段视频又是我们的老朋友 Sora生成的。
话说,就在当地时间的 12月 16日,也就是 OpenAI12日发布会的第 7天,谷歌 DeepMind突然推出了其第二代视频生成模型 -Veo2。
不仅支持生成最高4K分辨率的视频,也将最长视频长度提升到了前所未有的 2分钟,颇有前来踢馆 OpenAI的味道 ……
据 DeepMind的发布会报道, Veo2不仅可以更好地理解真实世界的物理规律,还可以理解电影语言,能听懂镜头参数,景深,景别,光效等专业术语甚至还能指定拍摄角度,动作和风格。
在盲测中也以号称以两倍的得票率领先于 Sora、海螺和可灵。
谷歌计划明年初将其上线,还会整合进 YouTube用于创作短视频。
如果该计划可行,那么今后电影与短视频的拍摄,无疑将进入 AI时代,谷歌大有凭借 Veo2将 Sora拍在沙滩上的势头。
在技术方面, Veo2 使用了 4D卷积神经网络。4D CNN 结合了3D卷积和时间序列的深度特征提取,允许模型在保持高分辨率的同时,处理视频中的动作细节和时空关系。
值得一提的是, Veo2还采用了独特的 GAN 架构,其中,生成器负责生成视频内容,判别器则判断生成视频与真实视频的差异,通过不断的对抗优化,提升了模型生成的逼真度。
不继续卖关子了,揭晓答案。
前三个视频的画面看起来更符合现实世界的物理规律,它们是由 Veo2生成,第四个视频则由 Sora生成。
从所发布作品来看,Veo2的确要优于Sora,但Veo2真的如谷歌宣传的那样脚踢Sora、拳打可灵,是 AI 视频领域的新王吗?在其正式开放前,还难定论。希望它不会如 sora 那样跳票。
我们不妨做下简单分析,在学习机制方面, Veo2和 Sora同样都采用了自注意力机制(Self-Attention)来捕捉长时间跨度内的视频内容和情感信息。
而在最关键的复杂场景处理方面,Sora基于RNN和 Transformer这种专门设计用于序列数据的架构。
对于复杂的情节生成, Sora 能够非常好地保持整个情节的连贯性,并处理长时间跨度内的情感或语义变化。
在小编看来, Veo2在上线后很可能同样面临与 sora相同的问题,模型在展示时,通常是针对某些特定的生成任务,比如单一场景或简单的叙事任务。
在实际应用中,模型可能需要处理更复杂的、长时间跨度的情节、更多的变量,甚至需要根据用户的输入生成高度多样化的内容,这对模型的性能提出了更高的要求。
所以,不知 Veo2上线后是否同样会面临和 Sora一样,不如预期,被用户疯狂吐槽。
这里面,用户过高的期望、硬件资源限制、训练数据局限性以及生成内容的复杂性等因素,都会成为限制Veo2的性能的重要因素。
Google也坦言,其生成模型并非“完美”。视频生成过程中难免会出现一些“幻觉”,比如多出的手指或意外出现的物体。
让我们且等且看吧!
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾
热门跟贴