阿里云在海外爆火的视频生成论文，现在终于有应用了

知危

2024-02-02 15:12 ·浙江

现在的大模型应用，越来越卷了。

前一阵，阿里云的通义千问 App 上线了个视频生成的新功能，只需要一张照片，就能生成自定义的舞蹈视频。

根据官方的介绍，这个功能不仅能生成视频，而且面部表情、衣着打扮以及背景等等，也保留了照片原来的特征。

最主要的是，没什么门槛，在手机上下个 App 就能玩。

所以功能上线不久，就在网上掀起了一大波试用风潮，堪称整活大赏。

从兵马俑跳科目三，到科目三席卷三国，还有不少粉丝用自家爱豆的照片 “ 恶搞 ”，短短几天时间各种鬼畜视频层出不穷。

甚至，#兵马俑跳科目三# 的词条，在微博上已经有了千万级别的热度。

“ 科目三火到考古圈 ”、“ 还没学会科目三的不用卷了，下一个通义千问 App 就行 ”、“ 这个世界越来越疯狂了，AI好牛 ”，网络上诸如此类的评论不绝于耳。

趁着热度，知危编辑部也在第一时间下载了最新版的通义千问 App，上手试了试这个新功能。

打开通义千问 App，视频生成功能的入口并没有直接出现在首页的功能模块里，而是需要在对话框里输入 “ 全民舞王 ” 或者 “ 通义舞王 ” 等关键词，再跳转到体验页面。

该功能里面有包括科目三、DJ 慢摇、鬼步舞还有秧歌在内的 12 种舞蹈模板，随机选择舞种再上传一张全身照就行。

当然，如果自己不想上传照片，官方也有默认图片模板可供选择，整个流程操作起来没什么难度。

只不过需要注意的是，在上传照片的时候，照片的分辨率要大于 500 × 500，而且需要正面站立的全身照，不能有遮挡，如果侧身站或者背景过于复杂，可能会影响最后生成的效果。

我们先是拿最近火爆全网的科目三来试了试。

上传一张马斯克的全身照，再等待十分钟左右，一个马斯克跳科目三的视频就新鲜出炉了。

舞蹈动作流畅，包括西装、鞋子在内，也跟原来的照片没什么两样，甚至动起来的老马连眨眼睛都很自然。

虽然跳舞过程中手部有些小瑕疵，但并不影响整体的视觉效果。

随后，我们又用扎克伯格试了划桨舞。

原图

可以看看照片和视频之间的对比，虽然原照片小扎并没有双臂垂直站立，但视频里手臂部分的还原度很高，就连衣服上的褶皱变化都能模拟出来。

之前老马和小扎一直 “ 约架 ” 不成，这次斗舞就当是看个乐呵了。

而除了能让真人跳舞以外，我们发现动漫人物同样也可以整活。

比如，让迪迦奥特曼扭东北秧歌。

还有鸣人跳爱心表白舞。

章鱼哥摆着臭脸，跳兔子舞。

甚至于，雕像也动起来。

就比如，唐代仕女俑再加上 DJ 慢摇的组合。

还有手办鬼步舞。

体验下来，我们觉得这个让照片跳舞的新功能可玩性还是挺高的，而且生成效果同样可圈可点。

但不可否认的是，最后生成的视频并非没有瑕疵，包括背景、脸部和手部，会出现不同程度的抖动或者轻微变形。

不过，这也是视频生成的通病了。

一直以来，视频生成都存在着生成困难、生成时间长还有生成效果不一致的情况，特别是如何保持人物形象一致和动作流畅，更是学界和业界都在攻克的难题。

如果从体验的整体效果来看，这次通义千问上线的视频生成功能已经有了非常大的突破。

而这背后，多亏了阿里研究团队自研的 Animate Anyone 视频生成模型。

正如前文的体验，这个模型可以只通过一张图像，就无缝生成动画视频。

通常，视频生成需要具备一致性、可控性和连续性三要素，也就是视频高度还原图片的细节、姿势动作需要精准可控，还有动作和动作之间连贯不卡壳。

在一致性上，Animate Anyone 引入了 ReferenceNet，这是一种特征提取网络。

简单来理解，用这个就可以提取图像里的一些外观特征，从而使视频高度还原人物形象、面部表情还有服装上的细节。

与此同时，从评测结果来看，Animate Anyone 的性能也要优于国内外的同类模型。

所以，这次全民舞王应用在国内能火起来，也算是在情理之中。

不过，更早些时候，这个模型其实就已率先在海外火起来了。

一个月前，阿里通义实验室团队在 arXiv 上发了一篇关于 Animate Anyone 模型的论文。

很快，这篇论文就在推特和 YouTube 等海外社交媒体平台上，引起了巨大反响。

光是推特上的一篇帖子，就有五千多万的浏览量。

YouTube 上，Animate Anyone 的相关视频播放量轻松破十万。

在 GitHub 上，短短几天时间内也收获了上万颗星。

只不过，当时的 Animate Anyone 对外还只是停留在论文阶段，不少网友都表示要蹲一蹲体验入口。

所以，阿里的团队也趁热打铁在通义千问 App 上推出了这个功能，让国内的用户先体验了一把。

从结果来看，确实也激起了不小的水花。

事实上，从去年下半年开始，在视频生成领域的各种大模型应用可以用百花齐放来形容。

比如，Runway 用画笔涂一涂，图片就能变视频；Pika1.0 免费开放试用；Stability AI 顺势入局图生视频领域，推出 Stable Video Diffusion。

国内方面，在阿里的 Animate Anyone 推出后不久，字节也推了个 Magic Animate，不少评测博主还专门对两个模型进行了对比。

不难看出来，多模态大模型的应用潜力已经被激发，整个行业其实都在往视频生成的方向卷。

从文本生成到图像生成，再到如今爆火的视频生成，过去一年，大模型的发展速度远远超过了人们的预期。《福布斯》近期发布的报告也已经明确提出了 2024 年多模态生成将有巨大的潜力。

接下来，视频生成能否诞生一个全新的爆款？

问题的答案需要时间来验证，但 2024 年伊始，阿里这波让照片跳舞的应用成功破圈，算是给行业加了把火。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴