从单一静态肖像创建逼真的可动画化头像仍然具有挑战性。现有方法常常难以捕捉微妙的面部表情、相关的全身运动和动态背景。为了应对这些局限性,阿里提出了一种新颖的框架FantasyTalking,给定一张肖像图像、语音和文本,FantasyTalking可以生成富有表情、自然身体动作和身份特征的动画肖像。此外,FantasyTalking 还可以控制动画肖像的运动强度。(链接在文章底部)

尽管FantasyTalking在生成户外对话头像视频的应用场景中取得了显著的进展,展现了更高的真实感和连贯性,但由于其依赖扩散模型的推理过程,该过程需要通过迭代采样来逐步优化结果,因此整体的计算时间较长,导致在实时应用中的效率较低。这一瓶颈限制了其在一些需要快速响应的场景中的应用,如直播和互动实时应用等。

01 技术原理

FantasyTalking 方法基于Wan2.1 视频扩散变换器模型,采用双阶段视听对齐策略,能够生成高度逼真且视觉连贯的对话肖像。第一阶段通过片段级训练对齐音频驱动的动态,建立一致的全局运动;第二阶段通过唇部追踪掩膜精细化唇部动作,确保与音频信号同步。为保持面部一致性,用面部聚焦的跨注意力模块替代传统参考网络,并集成了运动强度调节模块,控制表情和身体动作的幅度,增强肖像的自然性和可控性。

片段级训练:如图(a)所示,第一阶段的训练计算了全长音视频标记序列中的3D全注意力关联,在片段级别建立了全局视听依赖关系,同时实现了整体特征融合。尽管这一阶段使得模型能够联合学习弱音频相关的非语言线索(例如眉毛运动、肩膀动作)和强音频同步的唇部动态,但模型仍然难以精确学习唇部运动。这是因为唇部在整个视觉场景中所占的比例较小,而每一帧的视频序列与音频高度相关。

帧级训练:在第二阶段的训练中,如图3(b)所示,专注于通过帧级精确的视听对齐来优化唇部的动作。根据一对一的映射关系对音频和视频进行分段,将视频标记重塑为形状为 × (ℎ × ) × 的矩阵,将音频标记重塑为形状为 × ′ × 的矩阵,其中表示通道数。接着,计算这些标记之间的3D全注意力,确保视觉特征仅关注它们对应的音频特征。

02 演示效果

视频生成: FantasyTalking 可以生成高度逼真的唇部同步,确保角色的口型与音频匹配。支持多种风格的头像,无论是现实风格还是卡通风格,并且能够生成高质量的对话视频。

逼真的对话视频: FantasyTalking 支持生成具有多种身体范围和姿势的逼真对话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

多样化角色风格:FantasyTalking 可以将角色和动物以各种风格进行动画化,生成动态、富有表现力且自然逼真的风格化视频。

与封闭源方法的比较:FantasyTalking模型的表现与当前多模态条件下人类视频生成的最先进方法OmniHuman-1进行了比较。

https://arxiv.org/abs/2504.04842
https://github.com/Fantasy-AMAP/fantasy-talking

欢迎交流~,带你学习AI,了解AI