生数科技Vidu 1.5 称首次突破多主体一致性，实测发现效果很差

AI先锋官

2024-11-15 13:36 ·北京

作者｜子川

来源｜AI先锋官

解决多主体一致性难题，Vidu带着它的新功能出来炸街了！

这两天，生数科技发布了 Vidu 1.5 ，这个模型多出来了一个新的能力：多主体一致性。这也是视频生成领域，首个可以控制多个元素的视频生成功能。

大家可以理解为：上传多张图片，然后指定图片中的元素生成视频，并且保证这些复杂的元素不会变形。

比如上传角色、物体和地点的图，它可以用你指定的这些元素，做出一条视频来。

给大家看官方给出的案例就知道是怎么一回事了。

上传一张卡通人物的图片、一个蛋糕，以及一张水晶矿的照片。并输入提示词：男孩拿着蛋糕，出现在水晶场景里。

不一会，就生成一个男孩拿着蛋糕，出现在水晶场景里的视频。

跟刚刚介绍的那样，视频中的元素都是按照上传图片中的元素生成的。

看起来是不是效果还不错。

此次Vidu的多主体一致性功能，对图片的数量和图片的元素是没有限制的。换句话说，不仅只是能上传人物+物品+场景的图片，而是可以上传更多的图片，指定更多的元素，实现更多主体元素的一致性。

比如上传3张群体图片，输入提示词：十个主体，在一个古代的亭子里聚会

视频如下：

除了真人以外，3D卡通人物也可以生成。

提示词：“小男孩在玩具城里行走，慢慢转身到背面，镜头轻微向右移动”

效果真的就那么好？先打一个问号！

在小编的印象里，Vidu的视频生成效果应该比较拉跨，为了体验到实际的效果，那就上手实测一下。

首先，整一张白居易的图片，再上传一张雪花啤酒的图片，让白居易也喝一下啤酒的滋味。

输入提示词：一个男子拿着啤酒瓶在喝酒。

生数科技Vidu 1.5 称首次突破多主体一致性，实测发现效果很差

大概几十秒后，白居易喝雪花啤酒的视频就生成好了。

视频看起来很丝滑，不过很快就发现，视频里面的主人公和小编刚刚上传的不是同一人，而且差的不是一星半点儿。

啤酒瓶的雏形还是比较好的保存了，但是上面的雪花标签已经基本看不清了。

所以在保持主体一致性上得打一个问号！（抽了五次卡）

那就再来一个，来一个简单的，让雷总和漩涡鸣人来一场跨出电视机的拥抱。

提示词：两个人拥抱在一起。

生数科技Vidu 1.5 称首次突破多主体一致性，实测发现效果很差

同样是生成了5次，这场跨出电视机的拥抱终究是没有抱上，不过和上一个视频相比，它至少把图片中的元素都生成出来了。

既然动作生成效果不好，那就来一个静静站着的视频，让马斯克站在北极给小米su7打个广告。

生数科技Vidu 1.5 称首次突破多主体一致性，实测发现效果很差

这次的效果就比较不错，不过视频里的马斯克和原图的马斯克稍稍有点不一样，变年轻了！小米的车标变成了保时捷的（狗头两个）。在主体一致性方面还是差点意思。

整体体验下来。Vidu给人的感觉就是想法不错，此次的主体一致功能让视频生成变得更加可控。不过效果挺差的，还是得再观望观望。

目前该功能已经上架Vidu 的官网了，大家可以上手试试看。不过，现在只有三次的免费机会，后面每次试用就会需要消耗 4 个积分。

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴