作者|子川

来源|AI先锋官

解决多主体一致性难题,Vidu带着它的新功能出来炸街了!

这两天,生数科技发布了 Vidu 1.5 ,这个模型多出来了一个新的能力:多主体一致性。这也是视频生成领域,首个可以控制多个元素的视频生成功能。

大家可以理解为:上传多张图片,然后指定图片中的元素生成视频,并且保证这些复杂的元素不会变形。

比如上传角色、物体和地点的图,它可以用你指定的这些元素,做出一条视频来。

给大家看官方给出的案例就知道是怎么一回事了。

上传一张卡通人物的图片、一个蛋糕,以及一张水晶矿的照片。并输入提示词:男孩拿着蛋糕,出现在水晶场景里。

打开网易新闻 查看精彩图片

不一会,就生成一个男孩拿着蛋糕,出现在水晶场景里的视频。

打开网易新闻 查看精彩图片

跟刚刚介绍的那样,视频中的元素都是按照上传图片中的元素生成的。

看起来是不是效果还不错。

此次Vidu的多主体一致性功能,对图片的数量和图片的元素是没有限制的。换句话说,不仅只是能上传人物+物品+场景的图片,而是可以上传更多的图片,指定更多的元素,实现更多主体元素的一致性。

比如上传3张群体图片,输入提示词:十个主体,在一个古代的亭子里聚会

打开网易新闻 查看精彩图片

视频如下:

打开网易新闻 查看精彩图片

除了真人以外,3D卡通人物也可以生成。

打开网易新闻 查看精彩图片

提示词:“小男孩在玩具城里行走,慢慢转身到背面,镜头轻微向右移动”

打开网易新闻 查看精彩图片

效果真的就那么好?先打一个问号!

在小编的印象里,Vidu的视频生成效果应该比较拉跨,为了体验到实际的效果,那就上手实测一下。

首先,整一张白居易的图片,再上传一张雪花啤酒的图片,让白居易也喝一下啤酒的滋味。

打开网易新闻 查看精彩图片

输入提示词: 一个男子拿着啤酒瓶在喝酒。

 生数科技Vidu 1.5 称首次突破多主体一致性,实测发现效果很差
打开网易新闻 查看更多视频
生数科技Vidu 1.5 称首次突破多主体一致性,实测发现效果很差

大概几十秒后,白居易喝雪花啤酒的视频就生成好了。

视频看起来很丝滑,不过很快就发现,视频里面的主人公和小编刚刚上传的不是同一人,而且差的不是一星半点儿。

啤酒瓶的雏形还是比较好的保存了,但是上面的雪花标签已经基本看不清了。

所以在保持主体一致性上得打一个问号!(抽了五次卡)

那就再来一个,来一个简单的,让雷总和漩涡鸣人来一场跨出电视机的拥抱。

打开网易新闻 查看精彩图片

提示词:两个人拥抱在一起。

 生数科技Vidu 1.5 称首次突破多主体一致性,实测发现效果很差
打开网易新闻 查看更多视频
生数科技Vidu 1.5 称首次突破多主体一致性,实测发现效果很差

同样是生成了5次,这场跨出电视机的拥抱终究是没有抱上,不过和上一个视频相比,它至少把图片中的元素都生成出来了。

既然动作生成效果不好,那就来一个静静站着的视频,让马斯克站在北极给小米su7打个广告。

打开网易新闻 查看精彩图片

 生数科技Vidu 1.5 称首次突破多主体一致性,实测发现效果很差
打开网易新闻 查看更多视频
生数科技Vidu 1.5 称首次突破多主体一致性,实测发现效果很差

这次的效果就比较不错,不过视频里的马斯克和原图的马斯克稍稍有点不一样,变年轻了!小米的车标变成了保时捷的(狗头两个)。在主体一致性方面还是差点意思。

整体体验下来。Vidu给人的感觉就是想法不错,此次的主体一致功能让视频生成变得更加可控。不过效果挺差的,还是得再观望观望。

目前该功能已经上架Vidu 的官网了,大家可以上手试试看。不过,现在只有三次的免费机会,后面每次试用就会需要消耗 4 个积分。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾