01

AI视频生成大模型井喷

从抖音即梦 AI打造的《三星堆:未来启示录》到快手依托可灵完成的《山海奇镜之劈波斩浪》,AI短剧刷新人们认知的同时,也见证了AI视频赛道的井喷。

自Sora发布以来,国内外至少有 10 家公司发布了新产品或模型,7月24日快手可灵和爱诗科技pixverse v2.0 同一天发布,7月26日智谱发布 AI视频生成产品“清影”,7月30日生数科技发布VIDU模型,8月6日智谱清影宣布“清影”背后的模型CogVideoX-2B 开源,而9月19日,在杭州云栖大会上阿里云CTO周靖人宣布阿里云通义万相全面升级,并发布全新视频生成模型。

打开网易新闻 查看精彩图片

相较pixverse、VIDU等“单打独干”的AI视频生成大模型,背靠阿里系的通义万相一经推出就成为终端市场焦点,其AI视频生成功能上线一天后,不少网友反馈视频生成功能需“排队超1小时”。

对此阿里云在官方社交媒体“通义AI”表示,通义万相AI生视频功能上线后,用户访问量迅速达到平日10倍以上远超预期。目前已紧急进行算力扩容,排队情况已缓解,视频生成时间控制在5—10分钟内。

如此高的热度之下引发不少人好奇,相较之前的快手可灵和智谱清影,通义万相在AI视频生成领域的表现是否给人们带来惊喜呢?

02

UI界面设计:可灵1.5略胜一筹

在通义万相推出AI视频生成功能的同一段时间内,快手其实也推出了可灵1.5模型。

打开网易新闻 查看精彩图片

根据快手官方介绍,新增可灵1.5模型,支持在高品质模式下,直出1080p高清视频,挑战大屏清晰度与质感。与可灵1.0模型相比,1.5模型在画面质量、动态质量、文本响应度等方面有显著效果提升,其内部评测整体效果提升95%。

而自今年6月发布以来,这已经是可灵AI累计第9次迭代升级,两者对比多少有些欺负“新人”的味道了。在UI界面设计上,两者均支持“文生视频”和“图生视频”两种模式,但通义万相仅在首界面加入了视频画面比例预选,并未像可灵一样加入参数设置、运镜控制(1.5版本模型暂不支持)等自定义选项。

打开网易新闻 查看精彩图片

不过通义万相提供的“灵感扩写”也算是蛮有意思的存在,其可以根据简单的提示词内容,通过智能扩写获得更完善的提示词描述,该功能的加入多少有些将通义万相和通义千问打通的味道了。

03

生成效果:通义万相表现出彩

在生成视频效果对比上,我们依旧采取“晨曦、海滩、黑发少女、眺望远方、微风拂面”的指令语句,之前已经用该指令对比过可灵1.0和智谱清影,通过同样的指令,能够让我们更清楚了解各AI视频工具间的差异。

通义万相虽然前期可自主设置的参数不多,但生成效果可谓相当出色,不仅很好地表现出“微风拂面”的感觉,更重要的是将“晨曦”微光撒在沙滩的意境表达得相当到位,无论是海浪还是沙滩,不仅披上了金色的阳光,更是出现了色彩层次的渐变,环境效果堪称惊艳。

打开网易新闻 查看精彩图片

当然,通义万相整体画面也并非毫无破绽,无论是沙滩的颗粒还是人物皮肤细节,其展示效果远不如海浪和阳光。

而可灵1.5模型这边,除使用一样的指令语句外,在参数上选择“高品质”和“10秒”,但在具体生成的画面上,可灵1.5模型依旧犯了先前1.0模型上一样的问题。按照人类逻辑理解,“晨曦、海滩、黑发少女、眺望远方、微风拂面”大概率会认为少女向海洋方向眺望,但两个版本的可领均认为少女是背对大海,向内眺望。除了人物目光朝向外,可灵1.5模型对“晨曦”的理解也和人类有些偏差,其整体画面过于明亮,明显少了“晨曦薄雾”的画面感。

打开网易新闻 查看精彩图片

当然,可灵1.5模型在人物细节上的表现绝对可圈可点,不仅少女一头黑发表现相当真实,其脸部甚至将“婴儿肥”这样的细节勾勒出来了,再加上扭头那一刻微微下撇的嘴唇,这样的人物刻画,几近以假乱真的地步。

而在“图生视频”功能的比对环节,我们采用同一张荷花图并配以“蜻蜓点水,蝴蝶纷飞”作为视频创意提示词。在之前可灵1.0模型同智谱清影围绕同一个主题的“图生视频”创作中,可灵1.0模型虽未能清晰见到“蜻蜓点水”,但“可灵”视频中轻微摇动的荷叶与荷花,画面真实感十足。

这一次在可灵1.5模型生成的内容中,一只巨大的蝴蝶在荷花上飞舞,活灵活现的画面的确让人惊喜,不过其画面内容同“蜻蜓点水”明显有一些差距。而通义万相“图生视频”产生的内容画面水波流动的感觉弱于可灵1.5模型,且“蝴蝶纷飞”也仅在远景处有模糊的蝴蝶身影。

打开网易新闻 查看精彩图片

显然,两款AI视频生成工具在“图生视频”应用上还有较大提升空间。同时,通过“文生视频”和“图生视频”两款应用的对比我们发现,当下AI视频生成工具对中文词句的理解同理想状态还是有一段距离,这意味着人们在使用AI视频生成工具之前,需要不断优化提示词,这无疑会抬高AI视频工具的使用成本。

值得一提的是目前通义万相和可灵在AI视频生成上均需使用其平台“灵感值”,前者可通过每天签到获得,后者除每天赠送66个灵感值外,不少功能均需要充值会员才可以使用,在商业变现上,AI视频显然比AI文字生成、AI对话等应用快了一步。

04

场景决定位次

互联网大厂引领本轮AI视频竞赛

当前视频生成的技术阶段相似2022年12月ChatGPT刚问世时LLM模型所处的阶段,随着各个公司加大投入,技术上的差异将不再显著。虽然Sora 和可灵的推出,再一次验证了“大力出奇迹”的规律,但相比于技术,AI视频生成领域更重要的因素将是场景和数据,这将直接决定各个公司在未来AI视频生成行业的生态地位。

这样的大背景下,抖音、快手分别推出“剪映”和“可灵”两款知名剪辑软件就不单单是为了创收了,更多考虑的是争夺用户流量。AI 视频技术的普及,将让用户从内容消费者转变为内容生产者,内容供给的爆发意味着用户注意力将成为更加昂贵和稀缺的资产。对于平台而言,谁能拥有更多、更稳定的用户流量,谁才能在本轮竞争中立于不败之地。

打开网易新闻 查看精彩图片

在移动互联网流量增长接近天花板的背景下,而 AIGC 成为存量流量竞争的焦点。类比2010 年智能手机出现后,流量从PC端向移动端迁移的趋势,AIGC用户渗透率目前仍有较大提升空间。而在其渗透率提升过程中,率先拥抱 AI、将 AI嵌入其原有场景的产品,将抢占传统APP的用户流量。

但并非所有的传统APP开发商都有足够实力像快手一样推出自研AI视频工具软件,这就让通义万相、智谱清影有了存在的价值,他们搭建好AI视频创作的基础后,其他的传统APP能很容易地将其作为功能模块加入,从而各取所需。

只不过在本轮AI视频竞赛中,在数据、用户、场景上具备优势的互联网大厂始终掌握生态优势,其数据决定了模型的基础能力,用户数据决定了模型和产品迭代的速度,场景决定了盈利能力和商业模式的持续性,这意味着除非阿里这样的巨头亲自下场,否则背靠快手的“可灵”的确会在生态卡位上具有明显优势。

05

人人都是内容创作者

回顾近 20 年的互联网发展历程,在视频创作生态的初期,以PR、FC、达·芬奇为代表的传统工具延续其专业属性,一直服务于小众人群。

在视频生态兴起时,以会声会影等工具为代表的国产桌面工具开启了平民化时代。直到以剪映为主要代表的新兴互联网工具出现,才真正开启了视频的个人化表达,并彻底引爆创作生态。视频创作工具是视频内容生态发展的关键驱动力。

而AI视频技术的普及,将更大程度地赋能普通用户,让更多内容消费者转变为内容创作者,从而释放创意和灵感的价值。

微信订阅
打开网易新闻 查看精彩图片
微信订阅

邮发代号:77-19

单价:8元,年价:408元

编辑|张毅

审核|吴新

爆料联系:cpcfan1874(微信)

壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者