12月10日凌晨,OpenAI的12天特别活动的第3天,备受外界期待的视频生成工具Sora终于正式登场。

Sora的首次预告是在2月16日,当时OpenAI提供了数十个演示视频,展示了一个令人惊叹的未来:任何人都可以通过在计算机程序中输入简单的文本提示来制作高质量的短片。

然而,在随后的300天内,Sora始终停留在预告阶段,未能面世。而在这期间,包括Meta、谷歌和亚马逊在内的几家大型科技公司都展示了自己的视频生成模型,国内的可灵和海螺也在海外大放异彩,成为外网一度讨论最热烈的视频生成模型。

采用最新发布的Sora Turbo,用户可以通过文字、图像或其他视频素材,生成长达20秒的视频。目前,该工具已在美国和其他部分市场面向ChatGPT Plus和Pro用户开放。

Sora官网上线后,用户蜂拥而入,火爆的需求很快就导致网站崩溃,公司CEO山姆·奥尔特曼(Sam Altman)表示:“我们严重低估了Sora的需求,要让每个人都能访问还需要一段时间。”

而拿到访问权限的用户也在网上陆续分享Sora生成的视频,不难看出,Sora还是有不少惊喜,但有用户也反馈称,Sora对物理规律的理解并不够好,仍会出现人的手部不自然、文字乱码、动物跑着跑着就飞起来等情况。

整整300天后,Sora正式发布

12月10日凌晨,OpenAI正式发布Sora Turbo。这距离该公司首次公开发布这一产品的预览已经过去300天。

目前,http://sora.com网站已经上线,美国及其他市场的ChatGPT付费用户可以通过该网站开始使用Sora,但在欧洲大部分地区和英国还需要一段时间才能使用。相比最初预告的Sora版本,Sora Turbo模型增加了文本生成视频、动画图像和混合视频等功能。

OpenAI表示,ChatGPT Plus订阅用户可以生成最多50个视频,分辨率最高可达720p,时长为5秒。而通过上周推出的“史上最贵”的、每月收费200美元的ChatGPT Pro服务,用户最多可以生成500个视频,可以同时生成5个视频,时长为20秒,分辨率最高为1080p,并且,订阅者可以下载没有水印的视频。

打开网易新闻 查看精彩图片

图片来源:OpenAI

奥尔特曼与Sora团队负责人比尔·皮布尔斯(Bill Peebles)、阿迪亚·拉梅什(Aditya Ramesh)进行了约20分钟的直播对Sora进行介绍。在直播中,他们展示了Sora的新探索页面,其中包含一些用户制作的AI生成的视频。

OpenAI重点介绍了一项名为“故事板”的功能,该功能可让用户根据一系列提示生成视频,以及将照片转换为视频。OpenAI还演示了一个“混合”工具,可让您使用文本提示调整Sora的输出,还可以将两个场景“混合”在一起生成一个新的场景。

打开网易新闻 查看精彩图片

图片来源:X

对于Sora的发布以及意料之外的视频编辑功能,著名AI评论员Rowan Cheung评价道:“圣诞节提前来到了AI世界”。

打开网易新闻 查看精彩图片

图片来源:X

针对之前一直被提及的安全问题,OpenAI表示,使用Sora生成的视频将带有可见的水印和C2PA元数据,以表明它们是使用AI制作的。在将图像或视频上传到Sora之前,OpenAI会提示您勾选一项协议,该协议规定您上传的内容不包含未成年人、露骨或暴力内容以及受版权保护的材料。OpenAI表示,“滥用媒体上传”可能会导致帐户被禁止或暂停。

Sora的产品负责人Rohan Sahai表示:“我们面临着巨大的压力,我们希望防止Sora的非法活动,但我们也希望在创造性表达与非法活动之间取得平衡。”

奥尔特曼在直播中表示,对于OpenAI而言,Sora不仅仅是一项技术,更是一种赋能创意人士的工具。在OpenAI的文化基因中,用AI激发人类创造力也很重要。通过Sora,OpenAI看到了AI和人类共同创造的全新协作模式。文本曾是人机交互主要形式,但他们坚信这远远不够,视频能够传递更多的情感和细节。同时,Sora对于OpenAI而言,不仅仅是一个视频生成工具,更是AGI(通用人工智能)之路的重要里程碑。

服务器被挤爆,Sora到底有多强

Sora官网上线后,不少用户蜂拥而入,希望成为第一批体验该模型的幸运儿。结果,由于需求量太大,OpenAI不得不暂时关闭了Sora帐户的创建功能。

奥尔特曼在X平台上发文称,“我们严重低估了Sora的需求,要让每个人都能访问还需要一段时间。正在试图找出如何尽快做到这一点!”

打开网易新闻 查看精彩图片

图片来源:X

OpenAI暂时没有回应在关闭之前到底有多少人成功创建账户,也没有透露何时恢复创建账户功能,但获得了访问权限的用户正在社交媒体上分享他们的作品。

有用户完全模拟了一个玫瑰从花蕾绽放到盛开的延时视频,看上去就和纪录片里的一模一样。

打开网易新闻 查看精彩图片

图片来源:X

还有网友模拟了80年代日本繁忙的街头。

打开网易新闻 查看精彩图片

图片来源:X

知名科技博主MKBHD也放出了一段模拟真实新闻的视频。除了字幕有一点乱码以外,其他和真实新闻场景看上去没有什么区别。

打开网易新闻 查看精彩图片

图片来源:X

OpenAI员工Will Depue也放出了一段它模拟的生成的一段虚假的历史视频,真实和虚幻之间感觉已经快分不开了。

打开网易新闻 查看精彩图片

图片来源:X

不过也有人反馈,Sora对物理规律的理解并不够好,仍会出现人的手部不自然、文字乱码、动物跑着跑着就飞起来等情况。比如,在上面伪造的历史视频中,如果仔细看其实会发现中间有一个骑兵是倒着骑马的。

Sora VS竞争对手

还有网友将Sora和在之前在国外大火的海螺模型和Sora做比较,用相同的提示词来生成一段末日机器人视频。

打开网易新闻 查看精彩图片

图片来源:X

打开网易新闻 查看精彩图片

Sora版本

打开网易新闻 查看精彩图片

海螺版本

更有人直接把海外最热门的几个生成模型(可灵,Sora,Runway,海螺)拉在一起比较,最后得出结论:从电影制作的角度来看,可灵的效果最实用Sora的效果最好(但如果镜头不正确,一切都不正确);海螺在某些情况下很好,但感觉很弱且不一致;Runway在工作流程方面是最好的,但它并不可控的。AI视频生成本身就是迭代的,因此与缓慢、漂亮但不正确的相比,快速和精简是一个不错的功能。

打开网易新闻 查看精彩图片

图片来源:X

打开网易新闻 查看精彩图片

Sora版本

打开网易新闻 查看精彩图片

可灵版本

打开网易新闻 查看精彩图片

海螺版本

怪不得有网友评论道:“每个人都对OpenAI Sora感到兴奋,但目前对我来说,最适合制作视频还得是海螺和可灵”。

打开网易新闻 查看精彩图片

图片来源:X

随着Sora的面世,视频生成大模型的赛道竞争无疑将会越来越激烈。上周,腾讯也发布了参数量高达130亿的元宝AI视频生成模型,是当前最大的视频开源模型。

打开网易新闻 查看精彩图片

图片来源:腾讯元宝