首个基于Wan2.1的音频驱动数字人FantasyTalking|fantasytalking|wan|肖像

从单一静态肖像创建逼真的可动画化头像仍然具有挑战性。现有方法常常难以捕捉微妙的面部表情、相关的全身运动和动态背景。为了应对这些局限性，阿里提出了一种新颖的框架FantasyTalking，给定一张肖像图像、语音和文本，FantasyTalking可以生成富有表情、自然身体动作和身份特征的动画肖像。此外，FantasyTalking 还可以控制动画肖像的运动强度。（链接在文章底部）

尽管FantasyTalking在生成户外对话头像视频的应用场景中取得了显著的进展，展现了更高的真实感和连贯性，但由于其依赖扩散模型的推理过程，该过程需要通过迭代采样来逐步优化结果，因此整体的计算时间较长，导致在实时应用中的效率较低。这一瓶颈限制了其在一些需要快速响应的场景中的应用，如直播和互动实时应用等。

01 技术原理

FantasyTalking 方法基于Wan2.1 视频扩散变换器模型，采用双阶段视听对齐策略，能够生成高度逼真且视觉连贯的对话肖像。第一阶段通过片段级训练对齐音频驱动的动态，建立一致的全局运动；第二阶段通过唇部追踪掩膜精细化唇部动作，确保与音频信号同步。为保持面部一致性，用面部聚焦的跨注意力模块替代传统参考网络，并集成了运动强度调节模块，控制表情和身体动作的幅度，增强肖像的自然性和可控性。

片段级训练：如图(a)所示，第一阶段的训练计算了全长音视频标记序列中的3D全注意力关联，在片段级别建立了全局视听依赖关系，同时实现了整体特征融合。尽管这一阶段使得模型能够联合学习弱音频相关的非语言线索（例如眉毛运动、肩膀动作）和强音频同步的唇部动态，但模型仍然难以精确学习唇部运动。这是因为唇部在整个视觉场景中所占的比例较小，而每一帧的视频序列与音频高度相关。

帧级训练：在第二阶段的训练中，如图3(b)所示，专注于通过帧级精确的视听对齐来优化唇部的动作。根据一对一的映射关系对音频和视频进行分段，将视频标记重塑为形状为 × (ℎ × ) × 的矩阵，将音频标记重塑为形状为 × ′ × 的矩阵，其中表示通道数。接着，计算这些标记之间的3D全注意力，确保视觉特征仅关注它们对应的音频特征。

02 演示效果

视频生成: FantasyTalking 可以生成高度逼真的唇部同步，确保角色的口型与音频匹配。支持多种风格的头像，无论是现实风格还是卡通风格，并且能够生成高质量的对话视频。

逼真的对话视频: FantasyTalking 支持生成具有多种身体范围和姿势的逼真对话视频，包括特写肖像、半身、全身以及正面和侧面姿势。

多样化角色风格：FantasyTalking 可以将角色和动物以各种风格进行动画化，生成动态、富有表现力且自然逼真的风格化视频。

与封闭源方法的比较：FantasyTalking模型的表现与当前多模态条件下人类视频生成的最先进方法OmniHuman-1进行了比较。

https://arxiv.org/abs/2504.04842
https://github.com/Fantasy-AMAP/fantasy-talking

欢迎交流~，带你学习AI，了解AI

首个基于Wan2.1的音频驱动数字人FantasyTalking

热搜

热门跟贴

热搜

热门跟贴

相关推荐

2026年美国纽约摄影学会（PSNY）第53届国际摄影沙龙征稿（截稿：6月16日）

像素画作品欣赏 —— 今日精选 10 位艺术家

要求配偶为学校在职在编优秀博士，贵州大学回应“萝卜岗”招聘质疑：条件设置不当，已终止招聘

广州白云机场一航班落地滑行58分钟？航旅纵横显示情况属实，机场客服称将调查

鲜奶雪糕包装印“不加一滴水”配料表首位竟是水 厂家：系旧包装，已改名“一滴水”

我们与亚洲入境游第一城的差距有多远？以上海与东京为思考

新疆托克逊县发生5.0级地震，这些谣言勿信勿传（2026·06·01）

张镇麟太香了！

男子惊险从夹缝中逃生。网友：幸好走路没看手机

幼儿在公园误舔了一口叶子中毒入院

巴菲特“接班人”首笔68亿美元大单押注房地产 分析师：他在赌周期反转

《亢奋》终章主角之死：一场悲惨的幻觉之旅

摄影的意图,原来一直是个谜

56个民族“吉量娃娃”全家福，一位摄影师毕生等待的画面

以纸折方寸 指间绽风华（侨界关注）

成龙向全球发出入境游邀约：欢迎感受无滤镜的真实中国

机智妈妈这波带娃操作绝了

美国番茄价格大涨，美厨师：购买时“需反复权衡”

夜空中最亮的星

吃片皮鸭、喝红酒、品甜点…夏日，上海市集的烟火气和氛围感如何“炼成”？

鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”

巴菲特“接班人”首笔68亿美元大单押注房地产分析师：他在赌周期反转

以纸折方寸指间绽风华（侨界关注）