好消息! 好消息~ 欢迎科研团队供稿
免费分享学术 项目成果
近年来,语音头像生成(THG)取得了显著的唇同步和视觉质量,通过扩散模型实现了令人印象深刻的效果;然而,现有方法在生成情感丰富的头像时,同时保持说话者的身份时仍存在困难。当前情感语音头像生成中的三个关键局限性:音频固有情感线索的利用不足、情感表征中的身份泄漏以及情感相关性的孤立学习。
为了解决这些挑战,复旦携手腾讯优图实验室提出了一种新颖的框架,称为DICE-Talk,基于身份和情感的解耦,并使具有相似特征的情感进行协作。DICE-Talk作为首个基于扩散模型的情感语音头像生成方法,能够生成多种情感,同时很好地保持身份特征,从而极大地促进了数字人类在实际应用中的发展。(链接在文章底部)
01 技术原理
DICE-Talk框架:方法包括三个关键组件:解耦情感嵌入模块、增强相关性的情感条件模块和情感判别目标。这些架构元素协同工作,解耦身份表征与情感线索,同时保留面部发音细节,从而生成具有情感细腻表达的逼真动画头像。
首先,开发了一个解耦情感嵌入模块,通过跨模态注意力共同建模音频和视觉的情感线索,将情感表示为无关身份的高斯分布。其次,引入了一个增强相关性的情感条件模块,具有可学习的情感库,通过向量量化和基于注意力的特征聚合,显式捕捉情感之间的关系。第三,设计了一个情感判别目标,在扩散过程中通过潜在空间分类来强制保持情感一致性。
DICE-Talk在情感表达和视频流畅度方面显著优于其他方法,同时在唇同步准确性和视频质量上接近最先进的Sonic,整体表现优异。
02 演示效果与对比
DICE-Talk方法与几项先前的工作进行比较,包括SadTalker、AniPortrait 、V-Express、Hallo、Hallo2、EchoMinic、Sonic、EAMM、StyleTalk 和 EAT 。其中,EAMM、StyleTalk 和 EAT 也专注于情感建模。
分析了不同情感控制方法对情感条件效果的影响,实验结果表明,情感库学习和情感判别目标显著提升了情感表达和身份保留能力。通过结合音频和视频特征,增强了情感先验的聚类强度,表明视觉信息在情感提取中至关重要,音频特征则起到辅助作用。
采用解耦情感嵌入模块,可以防止模型从情感参考视频错误地转移身份信息。使用t-SNE投影,发现情感先验能够形成连续的分布,并且通过线性插值,生成的视频中的面部表情和细节能平滑过渡,进一步验证了模型在情感控制和身份保留方面的有效性。
https://github.com/toto222/DICE-Talk
https://arxiv.org/pdf/2504.18087欢迎交流~,带你学习AI,了解AI
热门跟贴