字节跳动与上海科技大学的研究团队推出了一项名为“HeadGAP”的创新研究,备受关注。该团队提出了一种新方法,只需三张来自不同角度的照片,就能快速生成高度逼真的3D虚拟人头部形象。这些虚拟头像不仅具有极高的真实感,还能进行动画处 理,并可根据参考视频同步面部表情。
该模型利用大规模多视角动态数据集来学习3D头部的先验知识,并通过基于高斯Splatting的自解码网络实现动态建模。HeadGAP 通过身份共享编码和个性化潜在代码,成功学习了高斯原语的属性,从而实现了快速的头像个性化定制。这一技术不仅在虚拟社交和游戏开发等领域展现了广阔的应用前景,还为3D头像的个性化制作提供了全新的方法与思路。目前,代码并未公开,论文和效果视频已经公布,详细在文章底部。
01 技术原理
HeadGAP提出了一个包含“先验学习”和“头像创建”两个阶段的框架。 在先验学习阶段, 利用一个大型多视角动态数据集中的3D头部信息来训练模型。在头像创建阶段, 将这些先验知识应用到少量照片上,实现个性化的3D头像生成。
为了做到这一点,HeadGAP 使用了一种基于高斯散射的自动解码网络,并结合了部分动态建模技术。 通过使用共享的编码和个性化的潜在代码,来学习不同身份的头像特征。在头像创建阶段, 通过反向推理和微调策略,快速实现头像的个性化生成。
(1) 在先验学习阶段,使用不同身份的数据将头部先验知识嵌入到GAPNet中。
(2) 在个性化阶段,首先通过优化身份代码获取反向推理的头像,然后更新GAPNet以获得微调后的头像。
对于输入图像的跟踪网格,GAPNet 将基于部分的高斯原语与初始化的特征绑定到网格上。 然后,它使用特定部分的模块来预测每个原语的局部属性。 接着,这些局部属性会被转换为全局属性,用于3DGS渲染。 最后,渲染结果会输入到CNN中,生成最终的渲染图像。
02 实际示例
研究团队展示了他们的方法在各种场景中的表现,结果表明,无论是在受控环境还是在现实条件下,生成的3D头像都能始终保持卓越的质量和稳定的动画效果。
GT为原始参考,Self-reenactment为自我重演结果,也就是利用三张图片同时参考自己的表情视频生成3D头部。Cross--reenactment为交叉重演结果,也就是利用别人的三张图片同时参考自己的表情视频生成3D头部。
https://arxiv.org/pdf/2408.06019欢迎交流~,带你学习AI,了解AI
热门跟贴