InfiniteTalk：音频驱动的从口型到全身动作同步方法|infinitetalk|动作|动画|口型|镜头|音频驱动

近年来，视频AIGC的突破推动了音频驱动的人体动画进入一个变革性的时代。然而，传统的视频配音技术依旧局限于口部区域的编辑，导致面部表情与身体动作不协调，从而破坏了观众的沉浸感。为了解决这一限制，中国科学院大学提出了一种新的范式—稀疏帧视频配音（sparse-frame video dubbing）。该方法通过战略性地保留参考关键帧，维持人物身份特征、标志性动作以及镜头轨迹，同时实现基于音频的全身动作同步编辑。（链接在文章底部）

同时，提出了InfiniteTalk—一种音频驱动的生成器，用于突破长序列合成中的关键局限。InfiniteTalk 结合了瞬态帧条件（确保无缝过渡）、动作触发采样（激发自然动作）以及自适应镜头控制，从而在唇部、头部与身体同步方面实现了最新的最优表现，并消除了长序列中的身份漂移与动作伪影。

01 技术原理

InfiniteTalk是一种用于长序列稀疏帧视频配音的音频驱动生成器。其核心是基于流式视频生成，通过利用上下文帧注入运动信息，实现片段间的平滑过渡。为了保持源视频中的人物身份、背景与镜头运动，InfiniteTalk 通过引用关键帧来控制输出视频。

在实现稀疏帧视频配音中的软参考机制时，进一步研究发现：控制强度由视频上下文与图像条件之间的相似度决定。基于这一发现，提出了一种采样策略，通过精细化的参考帧定位，在控制强度与动作对齐之间取得平衡，从而实现高质量、无限长度的长序列视频配音，并具备全身动作与音频同步编辑的能力。

相比于传统范式，稀疏帧视频配音不仅局限于口部区域的编辑。它赋予模型自由，能够生成与音频对齐的口型、面部及身体动作，同时通过稀疏关键帧的引用来保留人物身份、情感节奏以及标志性动作。

长序列图像到视频的人体动画：

给定一个源视频和一段目标音频，InfiniteTalk 能够生成与音频同步的全身动作，同时保留源视频中的人物身份、背景和镜头运动。方法还可以仅依靠一张图像条件，实现长序列的人体动画生成。

传统方法由于仅编辑口部，虽在 FID/FVD 等指标上表现良好，但无法反映真实视觉效果，也导致身体动作与音频不同步。

将InfiniteTalk与多种传统视频配音方法（MuseTalk、FantacyTalking、Hallo3）及音频驱动的图像到视频模型（OmniAvatar、MultiTalk）进行了对比实验。结果显示，InfiniteTalk 在唇部同步方面显著优于对比方法，同时在视觉质量和身份保持上也表现突出。

https://arxiv.org/pdf/2508.14033
https://github.com/MeiGen-AI/InfiniteTalk
https://huggingface.co/MeiGen-AI/InfiniteTalk

欢迎交流～，带你学习AI，了解AI

InfiniteTalk：音频驱动的从口型到全身动作同步方法

热搜

热门跟贴

热搜

热门跟贴

相关推荐

苍蝇把卵产在牛身上的小伤口里

登月的兔子

丈夫刚走就来了动作真娴熟

大声发，浑身是戏，每个镜头都是经典

哥大博士让机器人脸告别“面瘫”，看视频学会11门语言

CF的最锐35mm镜头榜单（2026版）

抱着黄金的兔子

最虔诚的追随者-无名狂信子！

经典的镜头重现，背后原来是靠辅助的，以前绝对没想到的！

大哥路上骑车，遭到“不明生物”殴打，扯掉裤子那刻惊呆

恩奇都的宝具！

这个镜头多年以来，我看了很多遍，现在看的确是假摔了！

大爷们都看呆了，这几个动作，90%的人做不到

霍尔木兹海峡"锁死"全球能源 五角大楼酝酿"致命一击"

哆啦A梦，大雄和蓝胖子用寻人探测器为小猫找主人

男的做不了这动作

小樱：从全网被黑到全球人气第三，她的口碑是如何逆转的？

这动作男生都做不出来，这妹子打球太帅了，这才叫专业

不管遇到让你多心动的嘉宾，第一件事情就是先问年龄

这竟然是乐高砖块拼出来的？机甲MOC大神作品还原度直逼拼装模型

霍尔木兹海峡"锁死"全球能源五角大楼酝酿"致命一击"