口型同步,通常是指将现有视频中的口型动作与新的输入音频对齐的任务,通常被视为音频驱动的面部动画的一个简化变体。然而,除了面临生成对话人物(例如,时间一致性)时常见的问题外,口型同步还面临着一些显著的新挑战,如输入视频中的表情泄漏和面部遮挡,这些问题可能会严重影响自动配音等现实应用,但在现有的研究中往往被忽视。
为了应对这些问题,伦敦帝国学院提出了一个二阶段框架KeySync,它在解决时间一致性问题的同时,还通过精心设计的遮罩策略解决了表情泄漏和面部遮挡问题。KeySync 能够生成与驱动音频高度对齐的高分辨率口型同步视频,同时最大限度地减少输入视频中的表情泄漏,并能够无缝处理面部遮挡问题。(链接在文章底部)
01 技术原理
KeySync 框架概述:KeySync 包含两个阶段,这两个阶段都通过潜变量扩散模型生成视频,条件输入为视频和音频,二者的区别在于参考帧的选择,如图 (b) 所示。在关键帧生成阶段,模型接收一个身份帧 ,该帧会被重复并与加入噪声的视频输入进行拼接。在插值阶段,模型则以两个连续的关键帧 和 为条件,并引入可学习的中间嵌入向量 。两个阶段都融合了来自 HuBERT的音频嵌入 。图 (c) 展示了推理过程中应用的遮挡处理流程。
KeySync 的贡献在于:与现有方法不同,KeySync 能够生成与驱动音频高度对齐的高分辨率口型同步视频,同时最大限度地减少输入视频中的表情泄漏,并能够无缝处理面部遮挡问题。
02 演示效果与对比
在 HDTF、CelebV-HQ 和 CelebV-Text 三个主流音视频数据集上对模型进行训练,其中 HDTF 质量较高,而后两者包含许多低质量样本。为提升数据质量,构建了一个预处理和筛选流程,对 CelebV-HQ 和 CelebV-Text 进行清洗后与 HDTF 合并用于训练。
评估时,重点考察跨同步任务,即输入音频与生成视频来自不同来源,并从三个数据集中随机选取 100 个测试视频进行音频互换,同时报告相同视频上的重建结果,以保证与已有研究的一致性。
可以看到,KeySync 更准确地跟随与输入音频对应的口型动作。尽管 LatentSync 和 Diff2Lip 在一定程度上也与目标口型动作对齐,但它们未能正确生成某些发音,并且出现了视觉伪影,这限制了它们的实际可用性。此外,大多数方法产生的口型动作非常少,或者无法充分张开嘴巴。这可以归因于表情泄漏,即模型从原始视频和新音频中接收到相互冲突的信号,使得生成一致且自然的口型变得困难。
https://arxiv.org/pdf/2505.00497欢迎交流~,带你学习AI,了解AI
热门跟贴