给你一张照片和一段录音,就能让照片里的人开口说话,嘴型还对得严丝合缝,听起来是不是挺魔幻的?

这种数字人视频生成技术最近两年火得一塌糊涂,但真正开源好用还能直接上商用级别的,说实话真的不多。

今天给大家介绍一个非常能打的开源,来自美团AI团队的LongCat Video Avatar 1.5。

打开网易新闻 查看精彩图片

开源地址:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

咱们先直接看下案例展示,直接让一位小哥哥唱杰克逊的名曲《We Are the World》。

一张图片,一段歌词,就能唱宋冬野的《安和桥北》

多人对话模式也非常惊艳。

让小动物说话也没问题,嘴型对的都挺完美的。

就连huggingface的产品经理Victor都介绍美团的这个新开源,并认为可能是目前数字人领域的SOTA模型。

打开网易新闻 查看精彩图片

下面咱就唠唠LongCat 1.5的主要核心功能。最基础的玩法就是单人口型同步生成。

你提供一段音频,再配上文字描述或者参考图片,模型就能生成一段嘴型精准、动作连贯的说话视频。

以前很多开源方案生成的视频看两秒还行,看久了就会发现人物在微微抽搐或者嘴唇跟声音总是差半拍,LongCat 1.5把这个问题解决得相当漂亮。

秘密武器就是把音频编码器从原来比较弱的Wav2Vec2换成了OpenAI开源的Whisper。

这一换直接让唇形同步的自然度上了一个台阶,口型不再是机械地开合,而是真的在跟着音素走。

说到这里自然就引出了第二个亮点,长时间视频的稳定性。很多数字人模型生成个三五秒还凑合,时间一长各种毛病就来了,人脸变形啦动作重复啦背景乱闪啦。

LongCat 1.5专门针对这个问题做了优化,通过分段生成加参考帧约束的机制,即使生成十几秒甚至更长的视频,人物的身份特征和画面连贯性依然能保持得很好。

然后是我个人觉得最惊艳的功能,多人对话场景生成。

给两个角色的音频和图片,模型能自动生成两个人同框说话的视频,谁说谁动,嘴型各对各的,简直是做对话类内容的利器。

之前见过的大多数方案只能搞定单人场景,两个人的交互处理起来复杂度直接翻倍,美团团队能把这块做进开源框架真的很大方。

另外一个很讨喜的特性是对多种风格的泛化能力。不只是真人,二次元动漫角色甚至猫猫狗狗这样的动物形象,都能驱动着开口说话。你想让自家宠物照片念一段祝福语,技术上完全可行,而且效果还不赖。

这背后其实是模型在训练时覆盖了非常多元的数据分布,才有了这么强的泛化表现。

打开网易新闻 查看精彩图片

还要重点夸一夸LongCat 1.5的推理效率,通过基于DMD2的步数蒸馏技术,模型把推理步数压缩到了8步,再配合8比特量化加载,在保证画质基本不降的前提下,显存占用和生成速度都优化了一大截。

以前跑一个数字人视频动辄几十上百步推理,现在八步就能出图,成本直接砍掉一大半,这对实际部署来说太关键了。

其实做数字人只是这个模型的基础玩法,咱们还能用这个做续写视频。

例如,就是你先给一段音频生成开头几秒的视频,然后模型可以基于已有内容继续往后生成,这样就能拼出很长的完整视频。

再就是结合超分辨率选项直接输出720p的高清结果,省去后处理的麻烦。

音频方面支持双音轨模式,合并和拼接两种方式都行,做双人对话的时候可以分别给两个角色录好音然后自动合成挺方便的。

如果你是做短视频的创作者想批量生产口播内容,开发者想在自己的产品里集成数字人能力,或者纯粹对这项技术好奇想自己动手玩一玩,这个值得试试。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

企业、高校及渠道合作

打开网易新闻 查看精彩图片