2月16日凌晨,Op­en AI的So­ra让全世界沸腾,有人惊呼:现实,不存在了!
就像《三体》中杨冬挂在嘴边的那句话:“物理学,不存在了”。
大家应该都看过了So­ra生产的那些视频,我就不贴出来了。
关于So­ra简单概括几点:
1,为什么惊艳世界?
So­ra是Op­en AI最新推出的文生视频大模型,它的江湖地位可以用下图来描述。

惊艳点包括三点:
“60s超长长度”、“单视频多角度镜头”,“世界模型”。
远超所有此前文生视频方案,几乎实现了两个代际的提升,接近消费者/工业生产需要。
首先,60s超长长度。
其他文生视频大模型,比如pi­ka,Ge­m­i­ni等,所生成的视频基本上在10s左右,而So­ra直接可以生成60s的视频。
什么概念?假设一部动漫电影1个小时,那么只需要向So­ra输入60个剧本段落,就可以在1个小时内制作出一部动漫来。
其次,单视频多角度镜头
So­ra可以实现在一分钟的镜头里,实现多角度的镜头切换,同时可以保持物体一致。

最后,世界模型。
能生成具有多个角色、包含特定运动的复杂场景,表现出突破性的语义理解能力(能够理解孤独等复杂感情)、复杂场景理解能力和一致性,以及对对象和背景的精确细节描绘等。
也就是一种模拟世界物理的能力。
2,为什么如此惊艳
有机构认为,Op­e­n­AI的So­ra效果远超此前的Di­f­f­u­s­i­on模型的根本原因在于模拟世界物理的能力:Op­e­n­AI认为So­ra作为Di­f­f­u­s­i­on模型能力提升的很大来自于更多的视频作为训练集以及准确深入的语言理解能力与世界构造能力。
我们认为Op­e­n­AI So­ra能力的大幅提升可能主要来自于三方面:
1)Di­f­f­u­s­i­on-Tr­a­n­s­f­o­r­m­er架构
2)可能通过UE5、Un­i­ty、Ne­rf等大量生成合成数据作为训练集
3)大语言模型的能力提升和对世界能力的提升。
3,目前商业化进度:
Op­e­n­AI尚未公开开放So­ra权限,表示So­ra目前仅为研究项目的开始,CEO Al­t­m­an在Tw­i­t­t­er邀请留言生成视频展示能力,并表示Op­e­n­AI已经在和安全测试机构、电影和视频创作者合作,以改进产品。
4,对A股的影响
作为春节期间发酵最厉害的话题,下周一A股开盘后,资金大概率会继续炒作AI相关概念股,包括光模块,算力,大模型,传媒等。
但真正值得警醒的是,我们的AI已经远远落后于某西方大国了。
回想过去20年的几次产业浪潮,中国几乎都抓住了机会,甚至比西方做的更好,比如pc互联年代诞生了BAT,移动互联网时代诞生了字节,美团,滴滴等,新能源浪潮下诞生了宁德时代,蔚小理等。
而这一波AI浪潮下,除了华为,似乎还没看到具有竞争力的公司。
但可以确定的一点是,如果未来中国的万亿级公司,一定会在AI领域内诞生。而且这样的公司一旦出现,将会以非常快的速度达到甚至超越当前我们所看到的巨头。