预见·科技 | OpenAI发布AI文生视频工具只“动嘴”就能做出60秒视频|openai|插件|文生|视频工具|视频文件|镜头

来源：封面新闻

封面新闻记者欧阳宏宇

今天凌晨，AIGC文生视频赛道又添一重磅产品。

2月16日凌晨，OpenAI发布旗下首个文生视频模型Sora。据介绍，该大模型可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

根据该产品官网上已更新的视频demo，Sora不仅能准确呈现细节，还能在一定程度上还原物体在物理世界中的存在，并生成具有丰富情感的角色。甚至可以根据提示填补原有视频中缺失的画面。

借助AI技术，用户无需技巧就可以天马行空地制作视频。在谷歌、Meta、阿里云、百度之后，OpenAI凭借Sora正式切入文生视频赛道，输出视频的时长与质量进一步提高，标志着AIGC视频时代正加速到来。有不少网友评价说，“这么强的吗？以后有视频也未必是真相了”。

一句话生成60秒视频

现实将被彻底颠覆

喜迎龙年春节，紧跟舞龙队伍掏出手机边跟边拍的人群；雨后东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上；城市轻轨穿越市区，车内的人物面朝窗外摆弄着手机……难以想象这些都是通过AI生成出来的视频。

根据官网介绍，OpenAI正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。据官方公告描述，Sora是OpenAI在语言和图像生成领域先前工作的基础上发展而来的。该产品不仅能够理解详细的提示，还能通过动作和视觉叙事重新创造出物理世界的动态。在效果上，Sora引入了流动感和连贯性，能够在不同镜头之间无缝过渡，同时保持上下文和对原始文本提示的保真度。

仔细观看demo视频可以发现，其中充满了细节：跟紧舞龙队伍的海量人物各有各的行为；雨后街头，潮湿地面反射出堪比真实世界的光影效果；行驶中的窗外偶遇遮挡时，车内人物倒影在玻璃上真实地显现……而这些细节的呈现在原始文本中是没有的。

Sora是如何实现文生视频的呢？据介绍，该大模型使用了扩散模型的技术，它可以从类似于静态噪声的视频开始，通过AI逐渐去除噪声，把各种随机像素转化为一段清晰的场景。由于该大模型建立在Transformer架构上，而这一架构又以极强的扩展性著称，所以其能够把较小数据单位的视频和图像标记（Token），通过统一的数据表达方式，在更广泛的视觉数据上训练和扩散变化。这使得Sora能够处理各种持续时间、分辨率和纵横比的视频数据。

基于这一技术，Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

不过，OpenAI也透露，Sora还并不完善，目前它还难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。比如，视频中，篮球没有正确被篮筐阻挡。

赛道保持快速发展趋势

AI文生视频渐成风口

事实上，AI文生视频并不算一个新鲜事物。

在Sora出现之前，谷歌的Imagen和Meta的“做个视频（Make-A-Video）”已经发布了相当长一段时间。就在上月底，谷歌还新发布了AI视频大模型Lumiere，该大模型同样可以通过联合空间和时间采样来实现生成，并且也显著增加了生成视频的持续时长和质量，甚至可以将静止图像转换为动态视频。

中国造AI大模型同样早已在文生视频赛道早早布局。去年3月，阿里达摩院就放出了“文本生成视频大模型”，并在开源模型平台上对外测试。百度文心一言则在正式发布的支持多模态文本生成视频能力基础上，在去年8月又上线了文本转视频原生插件。

不过，这些AI大模型生成的视频与Sora相比还有一定差距，一方面是体现在持续时长上，绝大多数视频时长还在4-10秒左右，其连贯性也有所不足。另一方面是镜头的组合，绝大多数视频都是单镜头；而Sora已实现了在一个视频里面，多角度镜头的组合。例如，在剪影动画中，视频从一只狼对着月亮嚎叫，直到它找到狼群，切换了不同景别的多个镜头。

AI文生视频工具逐步增强，也难怪有网友表示，“图生视频的公司感觉要被冲击了”。国盛证券研报指出，AI视频的放量也将会改变目前如电商直播、产品广告、影视制作等多个行业的生态，下游应用的加速时刻也将到来。

“AI文生视频、图生视频等赛道将会继续保持快速发展的趋势。”资深人工智能专家郭涛分析称，未来一两年内，AI生成视频领域将会出现更多的创新和突破，包括更加智能的视频生成技术、更加丰富和多样化的应用场景和更加完善、成熟的技术标准和商业模式等。同时，他也指出，这个领域也将会面临一些挑战和难点，例如数据安全和隐私保护、商业化模式和市场接受度等问题。