OpenAI的圣诞季“十二连发”终于迎来了重头戏。当地时间12月9日,万众期待的OpenAI视频生成模型Sora正式版终于发布!OpenAI官方甚至直言 :“Sora就是我给你们的假期礼物。”
自今年2月份OpenAI首次官宣Sora以来,这款AI视频生成工具就备受瞩目。更令人惊喜的是,此次发布的版本是Sora Turbo,速度和性能都胜过Sora,并且直接开放给ChatGPT的Plus和Pro订阅用户。
在功能方面,Sora Turbo有了显著提升。用户不仅可以通过文字提示生成视频,还能将静态图片转化为动态视频,甚至可以对现有视频进行创意改编。
因为过于火爆,Sora网站一度暂停了注册。我们只能先用官方放出的演示视频解解馋。
据OpenAI介绍,Sora允许用户生成最高 1080p、最长 20 秒、宽屏、竖屏或方形的视频。他们开发了新的操作界面,以便更轻松地使用文本、图像和视频提示 Sora。
在创作视频的过程中,用户还可以使用Remix(混搭)、Re-cut(重剪)、Storyboard(故事板)、Loop(循环)、Blend(混合)和Style presets(风格预设)等功能。
Remix
用户可以使用 Remix 替换、删除以及重新构想视频中的元素,我们可以看到视频中的门和场景都可以被替换或删除:
Re-cut
找到并分离出最佳帧,向前或向后延伸它们以完成(新)场景,通过挑选合适的视频帧,我们可以重新拓展视频场景:
Storyboard
在时间线上组织和编辑视频的独特序列,精确控制视频的分镜头发展,从而讲述新故事:
Loop
使用Loop剪辑并创建无缝循环的视频:
Blend
将两个视频合并为一个无缝剪辑:
Style presets
使用预设创建和分享激发您想象力的风格:
在订阅方案上,OpenAI目前只向订阅用户开放Sora的使用权。
ChatGPT Plus用户(20美元/月)每月可以生成最多50个优先视频,分辨率可达720p,时长为5秒。
几天前新推出的ChatGPT Pro订阅服务(200美元/月)则具备更多优势,包括无限制生成次数、最多500个优先视频、1080p的更高分辨率,以及长达20秒的视频时长。Pro用户还可以同时进行5个视频的生成,并下载无水印视频。
值得注意的是,OpenAI给不同订阅服务设定了不同的点数:Plus为1000点/月,Pro为10000点/月,而每月优先视频的生成数量是由点数决定的,时长更长、质量更高的视频可能会消耗更多点数。
此外,即使不是订阅用户,普通用户也可以浏览其他人使用Sora创作的视频作品。
OpenAI专门开发了一个“Explore(探索)”页面,让用户可以从社区作品中获取灵感。不过,目前该服务仅在美国和部分国家开放,OpenAI的CEO山姆·奥特曼(Sam Altman)表示,在欧洲和英国的发布可能还需要一段时间。
Sora系统卡
随着Sora正式版的到来,OpenAI也更新了Sora系统卡,提供了更深入、详细的产品技术细节,包括模型简介、模型数据、风险识别与部署准备、缓解措施、特定风险领域及缓解措施和未来工作。
从技术角度来看,Sora采用了扩散模型技术,通过一个渐进的降噪过程来生成视频。它的核心是Transformer架构,这使得模型具有优秀的扩展性能。
OpenAI在其系统说明中解释道:“不同于语言模型使用文本token,Sora使用视觉补丁(visual patches)作为视觉数据的有效表示……通过将视频压缩到低维潜空间,并将表示分解为时空补丁(spacetime patches),Sora能够更好地理解和生成视频内容。”
通过让模型能够预见多个帧,Sora成功解决了一个关键问题:即使物体暂时离开视野,也能保持其特征的一致性。此外,Sora还采用了DALL·E 3的重新描述技术,这显著提高了模型对用户文本指令的理解和执行准确度。
OpenAI认为,Sora代表了理解和模拟真实世界的重要进展,是达到通用人工智能(AGI)的关键里程碑之一。
在安全性方面,OpenAI表示自己采取了严格的防护措施。模型训练数据来自公开数据集、专有合作伙伴数据和内部开发的数据集。在预训练阶段就会过滤掉暴力和敏感内容。
OpenAI还邀请了来自60多个国家的视觉艺术家、设计师和电影制作人进行测试和反馈。同时在2024年9月至12月期间,来自9个国家的外部红队测试人员进行了超过1.5万次生成测试,以发现系统漏洞。
副总裁阿迪蒂亚·拉梅什(Aditya Ramesh)在直播中坦言:“作为OpenAI,我们显然背负着巨大的责任。我们既要防止Sora被用于非法用途,同时也要平衡创意表达的自由。这是一个持续的挑战,我们可能一开始做得不够完美,所以我们采取了相对保守的策略。”
为了确保内容安全,所有通过Sora生成的视频都会添加可见水印(Pro用户可去除)和C2PA元数据标识,可供溯源。同时,OpenAI还开发了一个内部搜索工具,可以帮助验证内容是否由Sora创造。
在使用Sora前,用户需要同意相关条款,承诺上传的内容不涉及未成年人、暴力内容、色情内容或受版权保护的材料。
OpenAI也通过技术手段屏蔽了上述内容,包括使用多模态审核分类器过滤违规内容、采用定制的大模型过滤系统、部署图像输出分类器检测有害内容等等。违规使用可能导致账号被封禁或暂停。
未来,OpenAI计划进一步加强Sora的安全性,包括改进内容溯源能力、扩大输出的代表性、提升安全政策等。这些措施旨在平衡创意表达自由与防止潜在滥用之间的关系。
然而,这款产品的发布也引发了一些争议。就在不久前,一群自称参与了alpha测试的艺术家泄露了Sora的信息,以抗议自己被OpenAI用于“无偿的研发和公关”。OpenAI不得不紧急撤销了泄露者的访问权限。
OpenAI也坦承Sora当前存在一些技术限制。在直播发布会上,开发人员承认:"这个早期版本的Sora并不完美,它可能会犯错。” 特别是在物理模拟和长时间复杂动作的处理上还有待改进。
在著名科技评测博主马克斯·布朗利(Marques Brownlee,又称MKBHD)的展示中,我们可以看到
这些局限性主要源于AI模型的训练数据,当前一代AI视频合成模型虽然擅长将现有概念转化为新的表现形式,但在真正的原创性方面仍有不足。
OpenAI的“十二连发”活动
几天前,OpenAI宣布了圣诞季“十二连发”活动,将在未来12个工作日连续召开直播发布会。目前该活动已经进行到第三场直播。
在前两场直播中,OpenAI分别宣布了o1模型完全体、新的ChatGPT Pro订阅服务和强化微调研究计划。
OpenAI 表示,OpenAI o1 的思维(方式)更加简洁,因此响应时间比 o1-preview 更快。内部测试表明,o1 比 o1-preview更加强大,将困难的现实问题的重大错误率减少了 34%。同时,o1 还有pro模式,能使用更多的计算进行更深入地思考,帮用户解决更困难的问题。
OpenAI新推出的ChatGPT Pro订阅服务月费高达200美元,可以无限制地访问OpenAI的所有模型,包括新推出的o1模型完全体、GPT-4o和高级语音模式。考虑到如此高昂的月费,Pro订阅的目标人群应该是追求最高推理和问题解决能力的人,比如各个领域的科研人员。
至于强化微调研究计划,则是OpenAI开放了强化微调 API(alpha 版本)的申请。
强化微调是一种新的模型定制技术,使开发人员能够使用数十到数千个高质量任务定制OpenAI的模型,并根据提供的参考答案对模型的响应进行评分。这种技术强化了模型对类似问题的推理能力,并提高了其在该领域特定任务上的准确性。
OpenAI鼓励“研究机构、大学和企业申请,特别是那些目前由专家领导执行一系列复杂任务并将受益于人工智能协助的机构”。
“作为研究计划的一部分,您将可以访问我们的强化微调 API(alpha 版本),以便在特定领域的任务上测试这项技术。我们会要求您提供反馈,以帮助我们改进 API,然后再进行公开发布。我们渴望与选择共享数据集的组织合作,以帮助改进我们的模型。”OpenAI表示。
最后,按照计划,OpenAI 接下来还有 9 场直播。o1 完全体和 Sora 已经亮相,它还能祭出什么王炸产品,我们拭目以待。
参考资料:
https://openai.com/index/sora-is-here/
https://openai.com/index/sora-system-card/
https://arstechnica.com/ai/2024/12/ten-months-after-first-tease-openai-launches-sora-video-generation-publicly/
https://venturebeat.com/ai/open-ai-sora-launches/
Sora官网:https://sora.com/
热门跟贴