01

视频生成成AIGC下一个风口

毫无疑问,视频生成已经成为2024年AIGC领域最大的风口。回看过去几个月,RunWay的Gen-2、Pika Lab的Pika 1.0,国内通义千问等大厂视频生成模型纷纷涌现,不断迭代升级。

然而人物作为视觉内容一个重要主体,和人物相关的视频生成仍然面临巨大的挑战。一个重要的原因是在生成人物运动视频的同时,需要保持人物外观的短时连续性和长时一致性,目前大部分视频生成算法都还做不到这一点。

阿里推出了Animate Anyone之所以一亮相就成为市场关注的焦点,在于用户只需提供一个静态的角色图像和一些动作、姿势,便可将其动画化。比如,只要有一张梅西的照片,就能让“球王”摆各种姿势,按照这一原理,让梅西跳舞也不在话下。

02

在朋友圈刷屏的“通义舞王”

“AI治愈了我的四肢不协调”——日前,兵马俑、马斯克以及各地网友跳科目三和网红舞的视频就陆续在国内社交媒体和朋友圈刷屏。这些10秒左右的视频都不是真人出镜,均由大模型生成,这种低门槛的“跳舞”方式引发了网友的广泛体验,掀起了一波斗舞潮。

体验“通义舞王”之前,建议用户直接在通义千问官方主页下载最新版的通义千问,该功能需要最新版本的通义千问APP才能支持。下载并安装完成之后,在通义千问APP内输入“通义舞王”“全民舞王”等口令后,即可进入体验页面。

根据提示,我们需要经历“选择舞蹈-上传照片-生成视频”三步,进入舞蹈选择界面后,目前提供科目三、DJ慢摇、只想对你说“爱你”、兔子舞等十余种预设好的舞蹈模板,选择感兴趣的舞蹈模板后,点击进入,然后选择“舞同款”,即可根据提示上传照片。

这里需要注意的是上传照片要求较高,除需要上传全身照外,还要求背景干净、不能有太多遮挡物,笔者更换了两三张照片才上传成功。完成照片上传后,需要等待15分钟左右,就可以获得最终动态视频内容,相比以往文生图、图生图等待的时间明显更长,也从侧面体现视频生成需要更多的算力资源。

完成后用户即可选择保存到本地或直接发朋友圈,而从生成的效果来看,生成的视频能较好地保留原形象的面部表情、身材比例、服装以及背景等特征,整个动态视频没有任何违和感。

从原理上讲,用户只需提供一个静态的角色图像和一些预设的动作(或姿势序列),“通义舞王”就会生成该角色的动画视频,其中包含有一个“动作引导-细节融合-视频合成-注意力机制”的步骤,大模型先进的算法 (如ReferenceNet) 确保在动画过程中,角色的面部表情、服装等细节特征保持不变,而UNet等去噪技术,则让生成视频内容流畅自然。这项技术的亮点在于它的通用性和高度自定义能力,极大降低了视频内容创作成本。

03

总结:通义千问的生产力属性

通义千问此次“让照片热舞起来”之所以受到大众关注,除自带的娱乐性外,更多还是其在生产力方面的表现。

“通义舞王”这样的方法不仅适用于人类角色,还可以用于动漫/卡通角色、人类角色等,不论用户提供的动作序列是什么,它都能逼真地转化为角色的动画视频。

较广的适应性能让其在动画、影视剧及游戏内容生产中发力,有效降低当前视频内容的生产成本,进而有效推动大模型在AIGC领域的落地和应用。

编辑|张毅

审核|吴新

爆料联系:cpcfan1874(微信)

壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者