音频信号引领虚拟化身：打造全新数字头像体验|数字头像|电子表格|编码器|虚拟化身|视觉|计算机|音频信号|马克斯

逼真的数字化身像在虚拟和增强现实应用、视频会议、电影和计算机游戏以及医学等领域变得越来越重要。德国萨尔布吕肯的马克斯·普朗克计算机科学研究所（MPI）现在在全球顶尖的计算机图形学会议SIGGRAPH和SIGGRAPH Asia上展示了两种新方法。这些方法能够生成照片级真实感的全身化身，并且只需通过音频轨道就能控制头部化身。

以前生成数字化身的方法存在明显的局限性：面部和身体常常无法独立控制，衣物有时看起来不自然，渲染效果通常仅在某些角度下令人信服，面部动画常常显得无生气且缺乏活力。马克斯·普朗克的研究团队通过他们的研究成果“音频驱动的通用高斯头部化身”和“EVA：来自多视角视频的富有表现力的虚拟化身”，朝着解决这些问题迈出了重要一步。

音频驱动的头部化身和新方法

可在arXiv预印本服务器上获取的论文“音频驱动的通用高斯头部化身”，计划于12月在香港的SIGGRAPH Asia上展示，描述了一种方法，通过这种方法，仅需使用语音录音就能自动动画和控制照片级真实感的3D头部化身。

这一基础是新开发的通用头部头像先验模型（UHAP），这是一个在大量真实人物视频录制的公开数据集上进行预训练的模型。它能够清晰地区分身份（特定人物的外貌）和表情（面部表情及动作）。

接着，一个音频编码器将音频信号直接转换为数字头像模型的表情表现。与早期的方法不同，它不仅考虑嘴唇和下颌的运动，还考虑音频相关的细微变化，比如口腔内部的运动或微妙的面部表情。使用这个预训练模型，可以生成高度逼真的3D面部渲染，并且所需的数据显著减少。

“我们的目标是创建不仅能与语音同步，还能表现得像真实人类的数字头像，融入像眉毛运动和视线移动这样的细微细节，”萨尔大学的博士生卡尔蒂克·特奥蒂亚（Kartik Teotia）表示，他在信息学MPI进行研究。

除了面部表情，MPI信息学研究所的研究还涵盖了生成全身虚拟化身的方法。论文“EVA：来自多视角视频的表现力虚拟化身”，于八月发表在温哥华的SIGGRAPH会议论文集中，描述了一种新颖的方法，运动和外观的建模被分开处理。一个灵活的数字模型首先捕捉身体、手和面部，以及它们的动作和表情。第二层则添加外部外观，即皮肤、头发和衣物。

全身虚拟化身与行业影响

“通过EVA，我们可以独立地真实生成动作和面部表情，还可以从原始录制中没有包含的新视角进行渲染，”MPI信息学研究所数字人类图形与视觉研究组负责人Marc Habermann说。目前，该系统仍然需要在研究所的实验室里用录制的素材进行训练，在那里，一个人会同时从超过一百个摄像机视角进行拍摄。

“通过这两项工作，我们正在以决定性的方式推进对真实数字化身的研究。这些模型可能会从根本上改变我们未来沟通、合作和学习新技能的方式，例如通过虚拟导师，远远超出计算机科学的范围，”马克斯·普朗克信息学研究所主任、视觉计算与人工智能部门负责人Christian Theobalt教授说，这些项目正在这里开发。Theobalt还是萨尔布吕肯视觉计算、交互与人工智能研究中心（VIA）的创始主任，这是与谷歌的战略研究合作项目。

上述两项工作已经引起了行业的关注。“EVA：来自多视角视频的富有表现力的虚拟头像”与谷歌在萨尔布吕肯VIA中心合作开发的。“音频驱动的通用高斯头像”则与伦敦电影技术公司Flawless AI进行了科学合作，该公司最近被《时代》杂志评选为2025年100家最具影响力公司之一。

Flawless AI的视觉配音技术，建立在Theobalt部门开创的基础研究之上，使演员的嘴唇动作能够精确适应新语言，这一突破在好莱坞引起了越来越多的关注。第一部使用视觉配音技术重制的完整长片《看天际》于2025年5月在美国影院上映。

更多详情： Kartik Teotia等，音频驱动的通用高斯头像，arXiv（2025年）。DOI: 10.48550/arxiv.2509.18924

亨德里克·容卡维奇等人，EVA：来自多视角视频的富有表现力的虚拟化身，计算机图形学与交互技术特别兴趣小组会议论文（2025）。DOI: 10.1145/3721238.3730677