近年来,视频扩散模型的进展为生成逼真的音频驱动的口型动画视频开辟了新潜力。然而,实现音频与口型的无缝同步、保持长期的身份一致性,并在生成的口型动画视频中产生自然且与音频对齐的表情,仍然是重大挑战。为了解决这些问题,Skywork提出了基于记忆引导和情感感知的扩散模型(MEMO),这是一种端到端的音频驱动肖像动画方法,旨在生成具有身份一致性和富有表现力的口型动画视频。(链接在文章底部)
MEMO在各类图像和音频类型上生成更为逼真的口型动画视频,并在总体质量、音频-口型同步、身份一致性和表情-情感对齐方面优于现有的最先进方法。使用 CUDA 12 在 H100 和 RTX 4090 GPU 上运行,在默认设置(fps=30、inference_steps=20)下,H100 上的每帧推理时间约为 1 秒,RTX 4090 上的每帧推理时间约为 2 秒。
01 技术原理
MEMO方案围绕两个关键模块构建:(1)记忆引导的时间模块,通过开发记忆状态来存储来自更长时间上下文的信息,从而通过线性注意力引导时间建模,增强长期身份一致性和平滑的运动;(2)情感感知音频模块,用多模态注意力替代传统的交叉注意力,增强音频与视频的互动,同时通过情感自适应层归一化来从音频中检测情感并细化面部表情。
这两个模块协同工作,实现了更好的音视频同步、持续的身份一致性和更自然的表情生成。能够生成具有更好身份一致性、音频与口型对齐以及更平滑动作的口型动画视频。相比之下,现有的扩散方法在自回归生成过程中容易出现时间错误积累,尤其是当最后生成的 2-4 帧作为时间条件时,可能包含一些伪影,从而导致身份不一致。
02 实际效果
MEMO 可以用肖像、雕塑、数字艺术和动画等图像生成会说话的视频:
MEMO 可以生成有声音的视频,音频类型包括演讲、唱歌、说唱: MEMO 支持英语、普通话、西班牙语、日语、韩语和粤语等多种语言:
MEMO可以生成富有表现力的谈话视频或抵消视频中的情绪:
MEMO 可以生成具有各种头部姿势的谈话视频:
MEMO 可以生成长时间的谈话视频,且伪影和错误累积较少。
https://github.com/memoavatar/memo
https://github.com/if-ai/ComfyUI-IF_MemoAvatar
https://x.com/camenduru/status/1865102599591976961
https://arxiv.org/pdf/2412.04448欢迎交流~,带你学习AI,了解AI
热门跟贴