本文授权转自: 数字生命卡兹克(ID: Rockhazix)
临近年末,各家AI视频公司好像也都着急过年,模型一个接一个更新。
测不完,根本测不完。
周二我刚发完谷歌Veo2的文章,就说过内部测评里除了它亲儿子,可灵1.5在盲测中评价最高。
结果文章还挂在头条上躺着,昨天登录可灵一看,他们全新的1.6版本,就这么水灵灵的上线了。
真实的商战,就这么朴实无华(狗头)。
二话不说,直接开测。
可灵网址在此:https://klingai.kuaishou.com/
我花了几个小时把1.6版本按我的测试维度都给跑了一遍。
说真的,虽然看起来就是涨了0.1的版本号,但是,真的一点都不水。
而且价格没有一丁点变化,5s的高品质视频跟1.5一样,是35灵感一条,非常良心。
这次更新的重点就是图生视频,有一波巨大的飞跃,能力的提升点总结成三点来说就是:
物理规律真实感大幅提升,人物运动表演更强,语义理解大幅提升。
尤其是物理规律和人物动作,真的惊艳到我了。
这回文生视频、运动笔刷之类的没有特别大的更新,所以测试内容也很简单很清晰:纯测模型的图生视频能力,纯底模无添加无修改。
话不多说,Case一个一个给大家看。
一. 更真实的物理规律
这一波,可灵1.6的物理规律来了一波超进化。
现在它能切食物,能虚空倒茶,甚至,能跳舞了。
Veo2切西红柿的视频前两天在X上霸屏了,这次可灵1.6,居然就给接住了。
我先跑了这么一张图。
然后扔到可灵的1.6图生视频里,Prompt是:厨师正在把西红柿切成片。
先给大家看看1.5版本的切西红柿。
第一刀还行,第二刀就开始GG了,开始出现重影和变形。
但是1.6的稳定性,惊人的强。
1.6版在切东西的表现上几乎是碾压1.5,刀具、食材、切片的物理反馈都精准到位。
刀和西红柿的物理反馈简直绝了,刀压下去的力度、西红柿被切开的质感,物理呈现很可以。
对比三个月前的1.5还在炸厨房,现在这水平都能去米其林应聘了。
倒水的效果进步也很明显,比如一张水壶的图,然后写一段Prompt:水壶往水杯里倒茶。
1.5的时候,可灵还不能准确识别杯子和茶壶的关系,凭空出现第二个壶往盖子上倒茶,也是挺好玩的。
但是1.6完全不一样,虚空倒茶是真的秀。
流体的运动表现、杯子跟茶壶口的角度关系上,已经基本符合常理了。
还有这两个小猫和小狗的case:
猫主子走过沙发,沙发垫直接凹下去;金毛狗撒欢,毛发跟着哗啦啦。
啥叫物理真实感,这就是。
还有这个我非常喜欢的小精灵蹦跳。
真的有那种跳跃的物理质感了,帽子的甩动也是随着重力飘荡,很帅。
还有人与物理的交互,比如,我很喜欢的电影《楚门的世界》经典的结尾画面。
这张图的运动趋势很明显,就是让人走上台阶。但是墙壁上的影子,以及在电影剧情中楚门略带试探的动作,对AI视频来说都是难点。
我用的prompt是:男人有些犹豫和试探地伸出手扶着墙壁,然后一步一步走上台阶,抬头张望。
可灵的答卷,没有让我失望。
一致性不用说,包稳的。走上台阶时膝盖部分的物理规律,以及墙壁上跟着变化的影子,可灵也都做的很好。
说真的,这一段稍微后期修一下,感觉真能用在电影里。
还有这个蝙蝠侠飙车的case,压弯贼帅,披风完美。可灵自己补的街景和角度也不错。
这就是可灵1.6,可能就是,当今图生视频的,No.1。
二.人物运动表演加强
可灵之前的人物演技不够强的弱点,这次也给打上补丁了。
首先就是表情。人物的神态细节的变化1.6进步非常大,比如这段:
Prompt:女人看到什么,表情不耐烦地皱了皱眉。她无语地翻了一个白眼后走下楼梯。
人物的动作变化完全照prompt的顺序来的,很稳。而且我感觉1.6在表情这块的突破真有点东西,角色的面部细节、呼吸时颈部肌肉的变化。。。
我真的头一次见到AI把无语的神态做的这么真的,还有那一下封神的叹气。
这个演技别说内娱了,我感觉美剧都可以混进去演演。
还有这个case:
Prompt:火车行驶中。老人低头读报纸,看到某一段文字表情变得很惊讶。
两个版本放一块儿,足够明显了。
1.6版本这段眼神变化、情绪表演、环境光照和运动都相当到位,没有一点闪烁。连窗外的内容都很稳。
同样的图和prompt在1.5版本虽然火车和窗外的环境运动速度更快,但报纸的闪烁真的很难忽略,老人表情也完全没跟上剧情。
新版本完胜。
当然,表演除了面部,肢体动作的表演也很重要。
最牛逼的是:可灵,能跳舞了
我第一个测的是人物肢体比较清晰的芭蕾舞。
Prompt:芭蕾舞者优雅地表演旋转舞步。
写prompt的时候我其实是纯想刁难可灵的,第一个测试说实话我就有点被打脸了,它不仅能“旋转”,居然还给我换了个腿。。。
两个版本直接对比,没啥好说的。1.6这个物理逻辑、肢体肌肉的表现、画面稳定性都太吓人了。
肢体表现一上来就这么稳,我就更想上点难度考验一下它,比如测试AI舞蹈里的高难度内容:中国古典舞。
这个case我用来图生视频的是河南卫视《洛神》水下舞的截图。
图长这个样子:
原版的表演当年刷爆社交媒体,水下舞和飘带的结合把壁画里的飞天神女在现实里呈现。
中国古典舞对AI视频来说难点挺多,不仅要实现肢体上“跳舞”的大幅度动作,还得按照物理逻辑,展现水下飘带的运动、环境光照质感等等。
这个Case对AI,绝对是一个大挑战。
先看1.5版本的:
1.5其实也很稳了,飘带的表现很出色。可惜还是没有实现真正的“舞蹈动作”,肢体到后面几秒也没绷住。
所以在1.6版roll出来的时候,不夸张的说,我真被吓了一跳:
看到舞者手臂扭的第一下,我就懵了。然后,还不止挥手臂一次,真能跳舞啊?
这个肢体的动作幅度、这个物理、这个光照表现。。。
可灵你确定只更新了0.1版本?
虽然只有短短几秒,但人物肢体动作幅度很大,而且几乎没有太大的错误,连衣服的一致性都很好。除了飘带确实有点不稳,其他都做得像模像样。
别问我觉得牛不牛,问就是牛炸了。
说真的,这个case跑出来,我感觉可灵还能在国产AI视频的王座上,稳坐江山。
三.语义理解加强
可灵自己在1.6的标注上写的第一个就是“提示词响应大幅提升”。
所以基于语义,那必须先来个连续动作测试:
Prompt:女孩摘下眼镜,拥抱一只朝她跑来的小鹿。
小鹿是完全在画面外的,摘下眼镜、拥抱小鹿。
这个稳定性,太强了,整个主体都很稳,唯一的小瑕疵是后面的背景的鹿,因为太多,有一点扭曲,但是也很好了。
还有这个语义理解完成度很高的case:
Prompt:右边的男人后退一步,举起枪,枪口对着左边男人的额头。镜头迅速拉远,拍摄他们站在天台上。
这次可灵测下来,我感觉不仅是语义理解,它对上传图片的画面理解进步也很大。基本每次都能准确识别我说的“左边”和“右边”的主体具体是哪个,真·听得懂人话。
比如这个case里,识别人物站位正确,并且让右边的角色“后退一步,举起枪,枪口对着左边男人的额头”。
这一连串的动作实现的顺序、动作自然程度也完全OK,非常炸。
除了最后大幅度的运镜有点遗憾,但是当上线控制运镜的功能,我觉得也
就不是问题了。
再比如这个风暴兵和小坐骑的case,prompt是:主人公骑着坐骑前行,然后跳下来自己在地面上走路。
从坐骑背上跳下来的动作逻辑非常OK,除了跳起来那一下脚有一点点没绷住,其他都很好。
整体来看。
进步,无需多言。
当然,可灵毕竟也只更新了0.1个版本,主要也是图生视频的巨幅更新。
可以改进的地方也还是不少。
比如前面的case里,舞蹈和猫猫狗狗跳跃的动作虽然真实感做得很好,但生成慢动作的概率会有点大。
以及生成的视频内容有原图之外的内容的话,在审美上有待加强。
这个猫爬椅子的case,很典型地表现了可灵的优点和缺点:非常出色的物理逻辑和审美待加强。
这个视频我用的原始图片是只有一张椅子,狸花猫是可灵自己生成的。猫爬上椅子晃的那一下很绝。但是这只猫的毛色还有质感,和原图的画风还是会有一点不太匹配。
还有多人物的动作细节,尤其是人物的手指,虽然有很大进步了,但是在多人的复杂场景下,还是会出现BUG,但是这个也是所有AI视频的通病。
圣诞老人这个case里,中间的圣诞老人还好些,旁边俩小孩的手,三个人手里的面皮,崩得比较明显。
但是这样的效果,其实也是所有可用的AI视频里,几乎最好的了。
不过说回来,作为一个0.1的版本更新,能做到这个程度已经很赞了。
等到2.0的时候,那估计就是,一步登天。
现在回头想想,可灵的进化速度是真的离谱。
可灵正式上线是今年6月6号,截至我发文这天,满打满算差不多半年的时间。
而这半年,几乎是改写了整个行业。
我在1.5的测评文章里曾经写到:
希望可灵,希望快手这个老铁,每一步都走的足够扎实。
他们的确做到了。
别人家还在画饼的时候,可灵已经把饭做香了。
在AI视频领域,我觉得永远可以说一句:
你永远可以相信可灵。
从“中国的Sora”到“世界的可灵”。
期待可灵在它真正更新的可灵v2版本时。
会继续给我们,更大的惊喜。
文章转载:数字生命卡兹克,版权归原作者所有
原文链接:https://mp.weixin.qq.com/s/Xi1jnOUbejZ14_bHRfDNmQ
版权声明:“IXDC”所推送的文章,除非确实无法确认,我们都会注明作者和来源,本公众号对转载、分享的内容、陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完善性提供任何明或暗示的保证,仅供读者参考。部分文章推送时未能与原作者取得联系,若涉及内容或作品等版权问题,烦请原作者联系我们,给出内容所在的网址并提供相关证明资料,我们会核查后立即更正或者删除有关内容!本公众号不承担任何责任,并拥有对此声明的最终解释权。
联系微信:18802086168
联系电话:18802086168
编排 | 张宝予
终审 | 苏 菁
点这里,学习更多设计知识!
热门跟贴