在我们的日常生活中,配音常常让电影、动画和游戏变得更加生动。 但在这个过程中,如何保持说话者的独特个性,以及让嘴型与声音同步,仍然是个不小的挑战。 为了应对这一难题,字节提出了一种名为PersonaTalk的新技术。 这种技术能够通过分析说话者的音频,捕捉他们的风格和神态。(链接在文章底部)

首先,PersonaTalk将音频中的说话风格“注入”到视频中,让嘴型与声音完美契合。 接着,它又使用先进的技术来渲染出精美的面部细节,确保最终效果不仅自然,而且充满个性。 PersonaTalk在视觉效果、唇部同步和个性保留方面表现卓越,创建口型同步视觉配音,同时保留个人的谈话风格和面部细节,甚至可以与一些专为特定人物设计的方法相媲美。

左侧为原始视频,右侧为新音频替换到原视频,可以看到表情和面部替换非常好。

01技术原理

PersonaTalk方法分为两个步骤,利用一种“注意力”机制。首先,构建出符合不同风格的几何形状;然后,运用双重注意力来渲染人脸。这样能生成更真实和风格化的人脸图像。

PersonaTalk的方法主要有两个主要步骤,用于制作高质量的个性化视觉配音。第一步,使用了一种能感知风格的音频处理模块,它通过一个特别的注意力机制把说话风格融入到音频中。这些经过处理的音频特征帮助生成与发言者口型同步的几何形状。

第二步,使用双重注意力的渲染器为这些几何形状添加细节纹理。这一部分包含两个并行的注意力层,分别专注于嘴唇和面部,从不同的参考帧中提取纹理来渲染整个面部。PersonaTalk独特的设计能够很好地保留复杂的面部细节。

02对比与实际效果

将PersonaTalk与一些先进方法进行比较,包括Wav2Lip、VideoRetalking、DINet和IP_LAP。Wav2Lip通过预训练唇部模型提升音视频同步效果。VideoRetalking则通过巧妙设计生成真实的说话面孔。DINet对特征图进行空间变形,保留更多细节以产生高质量结果。IP_LAP利用地标和外观信息保持个性。此外,还与针对个人的SyncTalk方法进行比较,这是一种基于NeRF的最新技术。

定量比较:PersonaTalk在视觉质量(SSIM、PSNR和FID)方面表现最佳,同时在口型同步上也与其他方法相当。特别是在保持个性方面,PersonaTalk明显更优,得益于其风格感知几何构建和双重注意力渲染模块的进步。

定性比较:主观评估确认视觉配音质量。Wav2Lip的画面质量较差,存在模糊和伪影。VideoRetalking和DINet未能很好捕捉说话者风格,口型动作相似。IP_LAP有时口型同步不佳。相比之下,PersonaTalk在生成质量和个性保持上表现最佳。

多语言翻译:

在线课程:

动画

https://arxiv.org/pdf/2409.05379

欢迎交流~,带你学习AI,了解AI