只需三张图片！迅速生成3D数字人超逼真头部|先验|数字人|高斯

字节跳动与上海科技大学的研究团队推出了一项名为“HeadGAP”的创新研究，备受关注。该团队提出了一种新方法，只需三张来自不同角度的照片，就能快速生成高度逼真的3D虚拟人头部形象。这些虚拟头像不仅具有极高的真实感，还能进行动画处理，并可根据参考视频同步面部表情。

该模型利用大规模多视角动态数据集来学习3D头部的先验知识，并通过基于高斯Splatting的自解码网络实现动态建模。HeadGAP 通过身份共享编码和个性化潜在代码，成功学习了高斯原语的属性，从而实现了快速的头像个性化定制。这一技术不仅在虚拟社交和游戏开发等领域展现了广阔的应用前景，还为3D头像的个性化制作提供了全新的方法与思路。目前，代码并未公开，论文和效果视频已经公布，详细在文章底部。

01 技术原理

HeadGAP提出了一个包含“先验学习”和“头像创建”两个阶段的框架。在先验学习阶段，利用一个大型多视角动态数据集中的3D头部信息来训练模型。在头像创建阶段，将这些先验知识应用到少量照片上，实现个性化的3D头像生成。

为了做到这一点，HeadGAP 使用了一种基于高斯散射的自动解码网络，并结合了部分动态建模技术。通过使用共享的编码和个性化的潜在代码，来学习不同身份的头像特征。在头像创建阶段，通过反向推理和微调策略，快速实现头像的个性化生成。

(1) 在先验学习阶段，使用不同身份的数据将头部先验知识嵌入到GAPNet中。

(2) 在个性化阶段，首先通过优化身份代码获取反向推理的头像，然后更新GAPNet以获得微调后的头像。

对于输入图像的跟踪网格，GAPNet 将基于部分的高斯原语与初始化的特征绑定到网格上。然后，它使用特定部分的模块来预测每个原语的局部属性。接着，这些局部属性会被转换为全局属性，用于3DGS渲染。最后，渲染结果会输入到CNN中，生成最终的渲染图像。

02 实际示例

研究团队展示了他们的方法在各种场景中的表现，结果表明，无论是在受控环境还是在现实条件下，生成的3D头像都能始终保持卓越的质量和稳定的动画效果。

GT为原始参考，Self-reenactment为自我重演结果，也就是利用三张图片同时参考自己的表情视频生成3D头部。Cross--reenactment为交叉重演结果，也就是利用别人的三张图片同时参考自己的表情视频生成3D头部。