我是刀哥,前大厂架构师,现出海创业者。这是第79篇原创,研究AI的第35篇!

小云雀这次咸鱼翻身了!简直是个AI对口型神器!

请看第一位AI歌手:红姐房客

这个蹭热点,可以说是很到位了!本想大展宏图,却被红姐套路!

动画可能让你觉得效果不明显,再看第二位AI歌手,蒙娜丽莎!

 AI对口型神器太魔性!四大AI歌手,大展宏图?
打开网易新闻 查看更多视频
AI对口型神器太魔性!四大AI歌手,大展宏图?

蒙娜丽莎竟然有了歌神的神韵!

表情和口型都非常到位!动作十分搞笑,还会翻白眼!

关键的关键,制作非常简单!打开小云雀APP,进入创作页,点热门玩法小猫图

然后上传一张图,用让“ta”说话里的《大展宏图》音频模版就可以了

等10分钟,虽然有点长,但很值得!

每天只有三次机会,这是最近一个月,我最有氪金冲动的一次,可惜竟然没有开放充值!

“小云雀”呢,是6月初,字节旗下剪映团队推出的内容创作Agent。

这款产品号称“一句话打造一个爆款”, 专为短视频创作、数字人口播及电商带货等场景设计,核心亮点是实现视频创作的“零门槛”。

pr做得不错,上个月一发布,大家火速下载,使用!框框测!

然后,就没有然后了!

做出来的东西太AI,没有人味儿,别说爆款,做了十几个,阅读量三千,点赞过10的都没有。

这次,小云雀终于开始走抖音的套路了,UGC还是玩不过PGC的,你拿出一些有趣抽象的整活儿模版,大家照着做,皆大欢喜。

蒙娜丽莎这个,感觉像是内部人做的,加了一些提示词?动作和表情太到位了。

我用哥哥张国荣和MC热狗,就没有这么好的效果。

第三位AI歌手:张国荣!

第四位AI歌手:MC热狗!

当然也可能是达芬奇的作品穿越千年,太有灵魂。大家可以再传一些类似的油画试试。

技术分析

唇形同步 ,Lip-Sync需要用到多种技术:

  • 语音识别 (Speech Recognition): 将输入的音频或文字转换为文本,以便分析语音内容和时间戳。

  • 文本到语音合成 (Text-to-Speech, TTS): 如果输入是文字,需要先将其转换为语音。

  • 面部关键点检测 (Facial Landmark Detection): 准确识别面部(特别是嘴部)的关键点,以便跟踪和控制唇形变化。

  • 音频到视觉映射 (Audio-to-Visual Mapping): 将音频的音素(phonemes)和时间信息映射到相应的唇形变化上。Audio-Lip Memory等技术旨在实现更精确的唇形同步。

  • 3D面部模型重建 (3D Face Model Reconstruction): 有些方法会先从2D图像重建3D面部模型,然后在此基础上进行唇形动画,以获得更真实的效果。

实现逼真效果的关键技术包括语音识别与音频分析、面部特征点检测、3D模型应用以及复杂的音视频映射算法,例如“音唇记忆”(Audio-Lip Memory)和“运动解耦扩散模型”(MoDiTalker)等前沿研究。

国内做最好的我感觉就是小云雀了。有抖音音视频经验的加持,用到了豆包大模型,豆包文生图模型(原名“福禄瓜”),deepseek,工程整合能力很强大。

国外做的比较好的是HeyGen: 提供AI唇形同步视频创建工具,用户可以上传图片或视频,然后输入文本或音频,生成对口型说话的视频。

我还尝试了用肖战的写真和臧海传剧照,不过审核没通过,应该是有版权问题。本文用到哥哥的照片,仅为喜爱和纪念用途。用到房客动漫和MC热狗也是为了测试效果,侵删!

小云雀地址(公测中,iOS预约体验):https://xiaoyunque.jianying.com/

结尾

AI工具这个月好像退潮一点,出得没有上半年那么多,测来测去,实际能每天用上的不多,但好玩有趣做视频好用的,云雀我觉得算一个。

生活很辛苦,做点抽象搞笑视频,快乐一下,也是不错的!

明天咱们就把张学友安排上!

回复【小云雀 】,一起学习交流,大展宏图!

我是刀哥,大厂架构师,出海创业者,深入研究AI工具和AI编程。关注我,了解更多AI知识!