近年来,视频AIGC的突破推动了音频驱动的人体动画进入一个变革性的时代。然而,传统的视频配音技术依旧局限于口部区域的编辑,导致面部表情与身体动作不协调,从而破坏了观众的沉浸感。为了解决这一限制,中国科学院大学提出了一种新的范式—稀疏帧视频配音(sparse-frame video dubbing)。该方法通过战略性地保留参考关键帧,维持人物身份特征、标志性动作以及镜头轨迹,同时实现基于音频的全身动作同步编辑。(链接在文章底部)
同时,提出了InfiniteTalk—一种音频驱动的生成器,用于突破长序列合成中的关键局限。InfiniteTalk 结合了瞬态帧条件(确保无缝过渡)、动作触发采样(激发自然动作)以及自适应镜头控制,从而在唇部、头部与身体同步方面实现了最新的最优表现,并消除了长序列中的身份漂移与动作伪影。
01 技术原理
InfiniteTalk是一种用于长序列稀疏帧视频配音的音频驱动生成器。其核心是基于流式视频生成,通过利用上下文帧注入运动信息,实现片段间的平滑过渡。为了保持源视频中的人物身份、背景与镜头运动,InfiniteTalk 通过引用关键帧来控制输出视频。
在实现稀疏帧视频配音中的软参考机制时,进一步研究发现:控制强度由视频上下文与图像条件之间的相似度决定。基于这一发现,提出了一种采样策略,通过精细化的参考帧定位,在控制强度与动作对齐之间取得平衡,从而实现高质量、无限长度的长序列视频配音,并具备全身动作与音频同步编辑的能力。
相比于传统范式,稀疏帧视频配音不仅局限于口部区域的编辑。它赋予模型自由,能够生成与音频对齐的口型、面部及身体动作,同时通过稀疏关键帧的引用来保留人物身份、情感节奏以及标志性动作。
长序列图像到视频的人体动画:
给定一个源视频和一段目标音频,InfiniteTalk 能够生成与音频同步的全身动作,同时保留源视频中的人物身份、背景和镜头运动。方法还可以仅依靠一张图像条件,实现长序列的人体动画生成。
传统方法由于仅编辑口部,虽在 FID/FVD 等指标上表现良好,但无法反映真实视觉效果,也导致身体动作与音频不同步。
将InfiniteTalk与多种传统视频配音方法(MuseTalk、FantacyTalking、Hallo3)及音频驱动的图像到视频模型(OmniAvatar、MultiTalk)进行了对比实验。结果显示,InfiniteTalk 在唇部同步方面显著优于对比方法,同时在视觉质量和身份保持上也表现突出。
https://arxiv.org/pdf/2508.14033
https://github.com/MeiGen-AI/InfiniteTalk
https://huggingface.co/MeiGen-AI/InfiniteTalk欢迎交流~,带你学习AI,了解AI
热门跟贴