本文介绍来自人大等多个团队的最新科研成果 - SyncTalk。这是一种基于NeRF的高同步性说话人合成方法,专门针对提升说话人视频真实感和同步性而设计。本文克服了以往在同步性方面遇到的挑战,仅使用5分钟的说话视频即可生成高真实感的人物形象。目前该工作已入选CVPR 2024。

论文题目: SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis 论文链接: https://arxiv.org/abs/2311.17590 项目主页: https://ziqiaopeng.github.io/synctalk 代码链接: https://github.com/ZiqiaoPeng/SyncTalk

图1 SyncTalk通过使用5分钟的训练视频即可输出高真实感的说话人视频

一、 动机

合成由语音驱动的高真实感的说话人物视频面临着许多挑战。传统的基于GAN的方法难以保持一致的面部身份,而基于NeRF方法虽然能够解决这个问题,但通常会产生不匹配的唇部动作不具表现力的面部表情不稳定的头部姿势。一个逼真的说话人物需要同步协调人物身份、唇部动作、面部表情和头部姿势。缺乏这些同步效果是一个根本性缺陷,导致生成的效果不真实。

为了解决同步这一关键问题,作者引入了SyncTalk。这种基于NeRF的方法有效地保持了人物身份,增强了说话人物合成中的同步性和真实感。SyncTalk采用面部同步控制器(Face-Sync Controller)来使唇部动作与语音对齐,并创新性地使用3D面部混合形状模型来捕捉准确的面部表情。使用头部同步稳定器(Head-Sync Stabilizer)优化头部姿势,实现更自然的头部动作。使用动态肖像渲染(Dynamic Portrait Renderer)来生成高质量图像并恢复头发细节,提供更好的视觉体验。

二、方法

在本节中,将介绍作者提出的SyncTalk的三个关键模块,如图2所示,分别是:1)使用Face-Sync Controller控制嘴唇动作和面部表情,2)使用Head-Sync Stabilizer提供稳定的头部姿势,以及使用Dynamic Portrait Renderer渲染高同步面部视频,以下将进行详细介绍。

2.1 Face-Sync Controller

Audio-Visual Encoder

现有的基于NeRF的方法主要使用Deepspeech、Wav2Vec 2.0或HuBERT等方法提取音频特征,但是这些专为自动语音识别(ASR)任务设计的音频编码器并不能准确反映嘴唇运动。这是因为预训练模型基于从音频到文本的特征分布,而该任务需要从音频到嘴唇运动的特征分布。作者选择使用在2D视听同步数据集LRS2上进行预训练的视听同步音频编码器。这确保了通过该方法提取的音频特征和嘴唇运动具有相 同的特征分布,从而提供更精准的唇部运动。

Facial Animation Capturer

先前基于NeRF的方法只能控制眨眼,不能准确地控制面部表情。 如果用于训练的角色有大幅度的面部动作,如眯眼、扬眉或皱眉,会导致面部表情僵硬和面部细节不正确等问题。 考虑到对更加同步和逼真的面部表情的需求,本文增加了一个表情同步控制模块。 具体来说,通过使用 B 表示的52个面部混合形状系数,引入3D面部先验来对面部进行建模,如图3所示。 由于3D人脸模型可以保留人脸运动的结构信息,因此可以很好地反映面部的运动,而不会造成人脸结构失真。 在训练过程中,首先使用来自EmoTalk的面部混合形状捕获模块将面部表情捕获为E(B) ,并选择七个核心面部表情控制系数来控制眉毛、额头和眼睛区域。 它们与表情高度相关,与嘴唇运动无关。

2.2 Head-Sync Stabilizer

为了获取头部姿态,本文首先使用头部运动跟踪器来将3D可变形模型(3DMM)中的投影Landmark与视频帧中的实际Landmark之间的误差降到最低,从而得到较为稳定的头部旋转 和平移 。考虑到基于NeRF的方法对于头部运动的稳定性要求较高,如果运动参数不准确会出现较为明显的头部忽大忽小的情况。之前的方法仅使用稀疏的面部关键点来得到不稳定的头部姿态。

本文通过引入稠密点面部运动的追踪算法,并使用SLAM中的Bundle Adjustment来提高关键点和头部姿态估计的准确性,并引入了一个两阶段的优化框架。在第一阶段,随机初始化 个关键点的3D坐标,并优化它们的位置,使其与图像平面上跟踪的关键点对齐。此过程涉及最小化损失函数 ,该函数捕获投影关键点 和跟踪关键点 之间的差异,如下所 示:

在 第二阶段,进行更全面的优化,以细化3D关键点和相关 的头部联合姿态参数。通过Adam优化器调整了空间坐标、旋转角度 和平移 , 使误差 最 小化,表示为:

最终得到准确且稳定的头部姿态。

2.3 Dynamic Portrait Renderer

Tri-Plane Hash Representation

先前的方法如RAD-NeRF利用Instant-NGP实现了说话人的快速推理,但在音频驱动的3D动态头部建模中,哈希冲突影响了渲染质量和收敛性。为解决此问题,本文参考ER-NeRF使用三平面哈希表示,通过NeRF的三平面分解将3D空间分解为三个正交平面。在因子分解过程中,所有空间区域都被压缩到2D平面上,并修剪相应的特征网格,从而减少低维子空间中的散列冲突。在较少噪声的情况下,网络可以更专注于音频特征的处理,因此能够更准确地重建头部结构和更精细地捕捉动态运动。在建模过程中,对于给定的坐标 ,通过三个2D哈希编码器对其投影坐标进行编码:

其中 输 出 , 表示层级数, 表示每个条目的特征维度,表示与投影坐标 相对应的平面几何特征, 表示平面 的多分辨率哈希编码器。通过合并结果,得到最终的几何特征 :

其中特征的串联由 表示,结果为一个 通道的向量。利用 、观察方向 、嘴唇特征 和表情特征 ,三平面哈希的隐式函数定义为:

Portrait-Sync Generator

在训练过程中,为了解决NeRF在捕捉头发细节和动态背景等细节方面的局限性,作者引入了一个具有两个关键部分的人像同步生成器。首先,NeRF渲染面部区域 ( ) ,通过高斯模糊创建 作为面部的遮罩,然后使用同步的头部姿态,能够将面部渲染结果与原始图像 ( ) 贴合以增强头发细节的保真度。

其次,当头部和躯干结合在一起时,如果源视频中的角色说话而生成的面部保持沉默,可能会出现下巴上的伪影,我们使用平均颈部颜色 ( ) 来填充这些区域,从而实现了更加逼真的细节和改进的视觉质量。

三、实验

3.1 定量评估

首先作者比较了在自驱动情况下不同方法的结果,SyncTalk在图像质量上均优于其他方法,在同步性方面结果超过了大部分的方法。

SyncTalk具有两种输出模式,分别是使用人像同步生成器,和不使用人像同步生成器。通过使用人像同步生成器后,头发细节得到恢复,图像质量也得到提高。由于唇部、表情和姿势的同步,在图像质量方面也优于基于NeRF的方法,特别是在LPIPS度量方面。
其次比较了使用异源音频驱动的效果(使用其他人说话的音频驱动当前人物)。

表2 嘴唇同步的定量结果

本文引入唇形同步误差距离(LSE-D)和置信度(LSE-C)用于唇形音频同步评估。SyncTalk展示了最先进的唇形同步效果,通过结合预训练的视听编码器进行唇形建模,克服了小样本NeRF的局限性。

3.2 定性评估

为了更直观地评估图像质量,在下图中展示了SyncTalk与其他方法之间的比较。从这张图中可以看出,SyncTalk展示了更高质量、更准确的面部细节。

图4 不同方法合成面部的定性比较

为了对所提出的模型进行更全面的评估,作者设计了一个用户研究问卷,并要求参与者从五个角度对生成的视频进行评分:口型同步准确性、表情同步准确性、姿势同步准确性、图像质量、视频真实度。用户研究的结果见下表。SyncTalk在所有评估中都超越了以前的方法。此外,SyncTalk在视频真实性方面取得了最高分,比第二名的IP-LAP高出20%。可以看出该方法可以产生人类感知的视觉质量,从而实现高真实感。

表3 用户研究结果

四、总结

本文详细介绍了一种高度同步的基于NeRF的逼真语音驱动说话人合成方法 - SyncTalk。该框架包括面部同步控制器、头部同步稳定器和人像同步生成器,它们可以保持人物身份并生成同步的嘴唇运动、面部表情和稳定的头部姿势。通过广泛的评估,与现有方法相比,SyncTalk 在创建逼真和同步的说话人视频方面表现出卓越的性能。随着说话人任务的快速发展,在不久后大家都可以拥有属于自己的虚拟人物。
Illustration From IconScout By 22

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈