一、Sora有什么特点?二、Sora模型与之前的文生视频相比主要有哪些突破?三、Sora带来的影响?四、Sora概念有可能会带动产业链上的哪些板块?

2024年2月16日,OpenAI正式发布文生视频模型Sora。Sora可以根据用户的文本提示快速制作长达一分钟的逼真视频,这些视频可以呈现具有多个角色、特定类型的动作、主题和背景等准确细节的复杂场景。而像Pika等其他主流的视频生成模型大多只能维持5s左右的动作和画面一致性,而Sora可在长达17s的视频中保持动作和画面的一致性。

此外在长场景视频生成中,Sora的细节丰富度和画面流畅度显著高于其他视频生成模型。Sora模型有望推动AI多模态领域飞跃式发展。

Sora主要有六大特点:

1、Sora模型在视频生成时长语义理解程度、以及视频效果稳定性等方面超出此前竞品,能生成长达60秒的视频,与当下短视频平均长度接近,这一时长远远领先此前Runway-gen2的18秒和Pika的3秒。

2、Sora制作的视频在逼真度画面精致程度将整个AI视频行业提升到nextlevel,Sora创作的视频质量,无论是高清度还是还原度,都是可圈可点的;Sora模型采用了最新的深度学习技术,能够生成更真实、更细腻的视频。

秉承着“无图无真相”的精神,OpenAI还给出了两个时长20秒的“Sora版《我的世界》”演示视频,视频中的画面已经可以非常自然地跟随“玩家”视角变化。

3、生成的视频里有明确的主角,而且视角多样化。相比之前的文生视频工具,Sora生成的视频更加智能,并不是简单的从库里调出多段视频进行拼接。

4、Sora模型的生成效率更高,Sora模型采用了高效的算法,能够在较短的时间内生成高质量的视频。

5、Sora模型对当前世界在物理层面的理解模仿能力较为出色。也就是说Sora不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。它通过“阅读”海量真实世界的视频信息,“理解”了真实世界的物理运行规则,然后再将视频素材生成符合要求的视频。

6、Sora模型的可控性更强,Sora模型允许用户在一定程度上控制视频的生成过程,使得生成的视频更符合用户的需求。

新事物落地往往能引起资金的“无限遐想”,Sora模型在生成视频的过程中有着很大创新,之前的文生视频,更多的是靠上一帧来预测下一帧。而Sora有足够大的视频阅历、足够大的网络架构,足够大的训练批次,足够强的算力,足够多的训练集,用模型给视频做标注统一维度空间编码,这是一种全局拟合的思路,也给人工智能大模型的发展打开了一个新的方向。

相较于此前的视频生成模型,Sora在底层模型算法进行了创新,被业界称为视频生成领域的里程碑。Sora大模型的诞生意义不亚于ChatGPT3.5的出世,这种创新大模型的诞生对于整个人工智能板块各环节的带动作用是毋庸置疑的,尤其是算力网络带宽的提升,将成为Sora大模型落地和国内大模型追赶的迫切需求。

从Runway、Pika到Sora,文生视频大模型频出,视频长度从表情包长度的3s-4s到主流短视频长度的60s,模型对物理世界的理解愈加接近现实。

Sora最直接的影响的肯定是对视频行业的冲击。作为一种视频生成工具,Sora仅需文字就可以生成60秒时长的精细视频,大大降低了视频制作的门槛和成本,特别是热点类等具备强烈时效性的内容。

总体来看,在AI大模型不断升级的背景下,产业链上诸如AI芯片、HBM芯片、AI服务器、光模块光芯片及交换机等领域有望持续受益。

虽Sora暂未公开使用权限,但其后续潜在的商业化有望对短视频、电影、游戏等下游领域产生深远影响;