等了 10 个月才发布的 Sora,实测的表现让人失望。Google 的 Veo 惊艳众人,但排队遥遥无期,不知道什么时候能玩。

还是来看看百花齐放、都能用上的国产 AI 视频模型吧。最近,可灵的视频生成模型更新了 1.6 版本,同时加量不加价,生成视频的积分没有变。

这次可灵的更新,最直观的是图生视频的进步。

那么,我们就来一次图生视频比拼,从人物表演、物理规律、多主体等角度出题,让可灵和海螺、即梦同题 PK,看谁遥遥领先。

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

吃披萨,喝酒,谁最没有 AI 味

大概从 AI 威尔·史密斯吃面开始,我们就很喜欢让 AI 品味各种美食,并用 AI 的吃相评判技术进步的程度。

先让《老友记》的乔伊吃个披萨,输入一样的提示词,「男人坐在沙发上,将披萨送至嘴边,轻轻咬下一口,镜头轻微拉近,聚焦在吃披萨的动作上」。

可灵让乔伊成功咬下了披萨,披萨少了一口,甚至披萨到嘴边还能拉丝,不过面部肌肉有些用力过猛。

打开网易新闻 查看精彩图片

可灵生成

海螺的表演也很完整,吃相比可灵收敛,但牙齿有些穿帮。

打开网易新闻 查看精彩图片

海螺生成

即梦完全在状况外,只是让乔伊坐了起来。

打开网易新闻 查看精彩图片

即梦生成

吃多了干巴巴的面食,让 AI 挑战一下液体吧。

这次请出日剧《我,到点下班》的女主,输入提示词「女性放下捂着脸的右手,端起啤酒杯轻抿一口,眼睛微眯,露出满足的微笑表情」。

这段提示词同时包含了人物动作和表情的变化,可灵的表演堪称完美,酒送到嘴边时,液体和泡沫都自然地倾斜,甚至主角还边喝边不自觉地眨了眨眼。

打开网易新闻 查看精彩图片

可灵生成

海螺的前半部分完成得还行,但后面就放飞自我乱加戏了,主角自顾自地看向了镜头,提示词没这段呀。

打开网易新闻 查看精彩图片

海螺生成

至于即梦,请问是怎么了呢?捂着脸的右手没放下,杯子倾斜成这个角度了,还一滴都没有洒出来,是不是要找牛顿秉烛夜谈。

打开网易新闻 查看精彩图片

即梦生成

切番茄,做体操,物理规律怎么就这么难学

现在,让可灵、海螺、即梦从餐桌下来,挑战大自然习以为常、却让 AI 们犯难的事情。

最近,OpenAI Sora 和 Google Veo 的切番茄对比,成了群嘲 Sora 的又一个依据。现在,我们也让三个国产 AI 下一回厨房。

这次的提示词写得比较详细:「写实风格,特写镜头,厨师正在砧板上切番茄,手部动作流畅,番茄被切成均匀的片状,汁液微微溅出,流畅的动态效果。」

可灵切的番茄一片片厚薄均匀,而且刀片下压和掉在砧板上的时候,番茄会发生形变。但第二刀应该切到手指了,可灵却表示没事。

打开网易新闻 查看精彩图片

可灵生成

海螺这是在切番茄吗?更像是在锯木头。

打开网易新闻 查看精彩图片

海螺生成

即梦开了个好头,结果这个番茄是越切越完整,一倒下又成了半个,让人绷不住了。

打开网易新闻 查看精彩图片

即梦生成

再来看看 AI 怎么理解奔跑和跳跃,我先用 AI 生成了一张水墨风的画,输入提示词「梅花鹿跑了几步到池塘边,优雅地跳过水面,消失在画面左侧」。

可灵的鹿虽然没能跳过水面,落进了水里,但总体遵循了提示词,水面跟随鹿的动作,溅起了水花。

打开网易新闻 查看精彩图片

可灵生成

海螺的鹿是消失了,原地打转把自己转没了。确认了,是个搞笑视频。

打开网易新闻 查看精彩图片

海螺生成

即梦的前半段还可以,鹿走了几步,也往水面跳了,但这个结尾抽象得看不懂。

打开网易新闻 查看精彩图片

即梦生成

体操被称为是 AI 视频界的「图灵测试」,因为难度太高了,肢体动作太复杂了,让 AI 生成,很容易出来不准确甚至恐怖的画面。

拿美国体操女王拜尔斯的图片一试,果然如此。我的提示词写得很简单,「一位女性体操运动员在平衡木上表演」,就想让 AI 自由发挥,但结果一言难尽。

可灵少做少错,一个动作都没有表演呢,5 秒就过去了。

打开网易新闻 查看精彩图片

可灵生成

海螺老老实实地炫技了,但你盯上 10 次也很难理解,腿是怎么翻转的,人的正面和背面怎么切换的。

打开网易新闻 查看精彩图片

海螺生成

即梦和可灵差不多,试图用慢动作过关,但奇怪的手已经暴露了这是个 AI。

打开网易新闻 查看精彩图片

即梦生成

打败小鲜肉,对标老戏骨

如果未来 AI 短剧、AI 电影大行其道,那么演技必须要比内娱的小鲜肉们好。所以,来考考国产 AI 的演技。

拿出电影《希德姐妹帮》的名场面截图,输入提示词「女性的嘴角叼着香烟,她微笑了一下,然后抬起右手,从外套口袋掏出金属打火机,掀开打火机盖点火,并将火焰凑近香烟末端」,让 AI 抽个烟。

可灵的表演太细了,每个表情和动作都遵循了提示词。掏打火机的时候,主角低下头,点火的时候,主角也是看着香烟,演技浑然天成,但这个打火机怎么点的,没看明白。

打开网易新闻 查看精彩图片

可灵生成

海螺的完成度也很高,但掏烟的地方不太对,并且左手在做假动作,根本就没碰到打火机。

打开网易新闻 查看精彩图片

海螺生成

即梦又自己发挥了,别说点烟了,烟自己都神出鬼没的。

打开网易新闻 查看精彩图片

即梦生成

再用 AI 生成的游戏 CG 风格的侠女,考验特写下的微表情。

我精心设计了表情的层次,输入提示词「少女先是露出惊愕的表情,随后显得愤怒,眼神变得凌厉,最后扬起嘴角,露出带着杀意的冷笑」,就看 AI 们能不能演出来了。

可灵表演出了惊愕,愤怒和冷笑不是很明显,至少表情是灵动的,发丝也飘动得恰到好处。

打开网易新闻 查看精彩图片

海螺的表演不能说不对,但太外放了,属于练习时长两年半的演技。感觉她在骂人,并且骂得很难听。

打开网易新闻 查看精彩图片

海螺生成

即梦这次的演技,算是三个 AI 里最好的了,虽然也没能演全,但表现出了凌厉的眼神。

打开网易新闻 查看精彩图片

即梦生成

复杂提示词,谁的阅读理解能力最强

多主体、多动作的复杂场面,对于 AI 来说也是一个难题。基于电影《百元之恋》的拳击擂台名场面,AI 们能不能生成一场精彩的比赛?

我输入了图生视频提示词——「两位女拳击手在擂台上对战,穿红色短裤的选手快速出左勾拳,穿蓝色短裤的选手后撤躲避后立即反击直拳,双方动作敏捷有力」。

可灵打得有来有回,语义理解也不错,知道是谁先出拳,先出哪只手,但力度软绵绵的,没有真实比赛里拳拳到肉的感觉。

打开网易新闻 查看精彩图片

可灵生成

海螺的场面一度有些混乱,一招鲜吃遍天,就看谁的出拳快。即梦更离谱,把拳击搞成了近身攻击。

打开网易新闻 查看精彩图片

海螺生成

打开网易新闻 查看精彩图片

即梦生成

两个人的打斗可能有点难,再来试试各就各位的才艺演出。

我选取了《死侍与金刚狼》的剧照,配上提示词「六位超级英雄保持队形站位,同步抬起双手做出心形手势,然后整齐划一地转身」。

可灵的比心不太同步,转身还没结束,视频就结束了。

打开网易新闻 查看精彩图片

可灵生成

海螺的比心整齐划一,但这个转身方式也是我没想到的。至于即梦,连比心都犹犹豫豫的,金刚狼你到底在坚持什么?

打开网易新闻 查看精彩图片

海螺生成

打开网易新闻 查看精彩图片

即梦生成

这是一次没有广告、纯花钱买积分自测的比赛,其中,可灵选择的是 1.6 模型,海螺选择的是 I2V-01 模型,即梦选择的是 S2.0 Pro 模型。

测评下来,虽然三个国产 AI 各有胜负,但在题目的范围内,可灵的总体表现是最好的。

可灵的运动相对合理,对提示词和物理规律的遵循也还可以,但有时候画面美感差了点,高难度的运动也有待学习。

打开网易新闻 查看精彩图片

可灵生成,基于电影剧照,吃意大利面

虽然可灵还称不上指哪打哪,但它的图生视频,对提示词理解得比较深入,哪怕结果不全对,或者画面不够美,至少可以看到,提示词的很多细节都在视频里有所体现。

总之,就是种积分没有白买、图片没有白找、提示词没有白写的感觉。

从 1.5 到 1.6,看似只有一个小数点,AI 视频的可控性是肉眼可见的提升了。AI 视频的比赛已经白热化了,但更重要的是,生成视频的时候,掀桌的冲动少了,创作的欲望强了,未来国产 AI 视频还能带来什么惊喜,值得期待 。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片