近期,音频驱动的肖像动画技术发展得非常快,生成效果越来越逼真。但现有的方法仍存在一些问题,比如嘴型和声音对不上、人物动作看起来不够自然、画面质量也不够理想。这主要是因为要同时兼顾这些不同的优化目标很难,而且缺少大规模、带有多维度偏好标注的高质量数据集来指导模型。
为了解决这些问题,阿里提出了Talking-Critic(FantasyTalking2),一种可以学习人类偏好的多模态奖励模型,用来评估生成视频在多个维度上的表现。他们还基于这个模型构建了包含 41 万对人类偏好对比的大规模数据集Talking-NSQ。在此基础上,又提出了一种新的优化框架TLPO(时间步-层次自适应多专家偏好优化),通过把不同的偏好分配给专门的“专家模块”,并在时间和网络层次上进行融合,从而让模型在唇形同步、动作自然度和画面质量上都能实现更精细的提升。(链接在文章底部)
01 技术原理
针对音频驱动的人体动画中动作自然度、视觉逼真度以及唇形同步三者之间的平衡难题,提出了TLPO— 一种面向扩散模型的新型多目标偏好优化框架。解决方案将相互竞争的偏好解耦为独立的专家模块,实现对单一维度的精确对齐;同时,利用时间步–层次双感知融合机制,在扩散去噪过程中动态地注入不同维度的知识。这样有效地解决了多偏好之间的竞争问题,使得所有目标能够在没有相互牺牲的情况下实现同步优化,从而达到全面对齐。
在定性和定量实验中,FantasyTalking2在人物动作自然度、唇形同步准确性以及视觉质量等关键指标上全面超越了现有的最先进方法(SOTA)。研究表明,细粒度偏好融合在扩散模型中具有至关重要的作用,并为实现高度表现力和逼真度的人体动画提供了一个稳健的解决方案。
FantasyTalking2 通过时间步-层次自适应多专家偏好优化(TLPO),能够生成具有自然动作、精准唇形同步和高视觉质量的多样化角色视频。通过提出的面向扩散模型的多偏好协同优化方法,本方法能够在多个维度上提升原始基线模型的表现。
与最新公开的 SOTA 方法进行了比较,包括FantasyTalking、HunyuanAvatar、OmniAvatar 和 MultiTalk。结果表明,FantasyTalking2 方法在动作变化的自然度上更胜一筹,在唇形同步方面有显著提升,并且整体视频质量也得到了增强。
https://arxiv.org/pdf/2508.11255欢迎交流~,带你学习AI,了解AI
热门跟贴