打开网易新闻 查看精彩图片

这项由Meta公司40多位研究人员共同开发的MHR(Momentum Human Rig)人体模型研究,于2025年11月发表在计算机图形学顶级会议上,论文编号为arXiv:2511.15586v1。想要深入了解技术细节的读者可以通过该编号查询完整论文。这个项目汇集了Aaron Ferguson、Ahmed A. A. Osman、Berta Bescos等众多专家,历时九年多的研发,代表了当前数字人体建模技术的最新突破。

想象一下,如果我们要制作一个能够完全模拟真实人体动作的数字替身,就像电影中的特效角色一样栩栩如生,这会是一个多么复杂的工程。人体有着错综复杂的骨骼结构,每一块肌肉、每一处关节的运动都相互关联,要让数字人物看起来自然,就必须精确模拟这些复杂的生物力学特性。传统的数字人体模型就像用木偶线操控的傀儡,动作僵硬不自然,而MHR的出现则像是给这个木偶装上了真正的"肌肉"和"骨骼"。

MHR建立在之前ATLAS模型的基础上,但进行了重大改进。如果把ATLAS比作一辆性能不错但还有缺陷的原型车,那么MHR就是经过全面优化后推向市场的量产版本。研究团队发现ATLAS虽然在技术上很先进,但在实际应用中存在两个关键问题:首先,它的面部表情系统基于FLAME模型,这就像是用一套过时的控制系统来操控现代化的机器,与当前艺术家们习惯使用的工作流程不兼容;其次,它的骨骼系统没有针对姿态修正进行优化,就像一栋房子的基础结构不够稳固,无法支撑更精细的装修工作。

一、突破性的身体建模技术

要理解MHR的创新之处,我们可以把传统的人体建模想象成制作一个充气娃娃的过程。传统方法是先设计外形,然后根据外形推断内部的骨骼位置,这就像是看着充气娃娃的外表来猜测里面支撑架的位置。这种方法的问题在于,外形和内部结构被强制绑定在一起,当你想要改变身材比例时,骨骼结构也会跟着发生不合理的变化。

MHR采用了完全不同的思路,就像是先设计了一个精密的机械骨架,然后再在外面包覆不同的"肌肉"和"皮肤"。这种分离式设计的好处是显而易见的:你可以保持骨骼结构不变,只改变外表的肌肉分布,也可以调整骨骼比例而不影响肌肉的形态。这就像是汽车的底盘和车身可以独立设计一样,大大提高了灵活性。

具体来说,MHR使用了一个包含127个关节的复杂骨骼系统,这比人体实际的骨骼数量还要多,目的是为了更精确地控制每一个细微的动作。每个关节都可以进行7种不同类型的变换:3种平移、3种旋转,以及1种缩放。这就像是每个关节都是一个多功能的万向节,可以在各个方向上自由调节。

为了让艺术家更容易使用,研究团队设计了一个巧妙的参数映射系统。他们将这127个关节的889种可能变换(127×7)简化为204个核心参数,就像是把一个有数百个按钮的复杂控制台简化为一个只有200多个按键的专业级调音台。这204个参数被分为两大类:136个姿态参数用于控制即时动作,68个骨骼变换参数用于调整身体的基本比例,如臂长、腿长等。

在处理皮肤绑定方面,MHR采用了艺术家定义的权重分配方式,而不是通过算法优化得出。这个选择很有意思:虽然算法优化能够减少训练误差,但优化后的权重往往缺乏结构性和局部性,这对艺术家的工作流程来说是个大问题。就像是一个经验丰富的厨师更愿意凭感觉调味,而不是严格按照机器计算出的配方,因为前者更符合直觉,也更容易调整。

二、让面部表情更加真实

在面部表情的处理上,MHR采用了与传统数据驱动方法截然不同的策略。大多数现有的研究模型使用密集、相互关联的表情空间,这些空间是从数千个扫描数据中提取出来的。虽然这种方法有其优势,比如能够捕捉到数据中存在的细微表情变化,具有最优的压缩效率,并且能够有效建模面部不同部位之间的关联性,但它们也带来了两个关键问题。

第一个问题是姿态污染。由于将表情从姿态中分离是一个尚未完全解决的技术难题,数据驱动的表情空间通常包含残留的姿态变化。这就像是在录制纯音频时混入了背景噪音,虽然大部分内容是正确的,但这些"噪音"会影响到一些细微但重要的表情,比如眨眼动作,理论上应该与头部姿态完全无关。

第二个问题是艺术工作流程的兼容性。艺术家们通常习惯使用稀疏、语义化的表情空间,就像画家习惯使用基本色调来创作,而不是使用预先混合好的复杂颜色。数据驱动的方法虽然技术上先进,但对艺术家来说就像是被迫使用一套他们不熟悉的工具。

基于这些考虑,MHR选择了基于面部动作编码系统(FACS)的表情模型,包含72个由艺术家精心雕刻的表情。这些表情既稀疏又具有语义意义,就像是为艺术家提供了一套标准化的"表情词汇"。虽然这些表情之间存在一定的相关性,在优化过程中可能会比较复杂,但实践经验表明,表情系数仍然可以得到很好的优化效果。这种方法大大简化了MHR与合成数据生成流程的连接,同时消除了一些相关工作中出现的虚假姿态运动。

三、精细化的身体形状控制

在身体形状的建模上,MHR采用了一种分区域的精细化策略。传统的方法就像是用一个统一的调色板来绘制整幅画,而MHR则像是为不同的画面区域准备了专门的调色板。具体来说,研究团队将身体的形状空间分为三个独立的子空间:身体、头部(或头骨)和手部,每个区域都有自己专门的参数控制系统。

这种分区策略带来了两个主要优势。首先,它为艺术家提供了更精细的控制能力,就像是给雕塑家提供了不同精度的雕刻工具,可以根据需要在不同区域进行精细或粗略的调整。当艺术家想要调整角色的体型时,不必担心会意外影响到面部特征;当需要调整手部细节时,也不会干扰到身体的整体比例。

其次,这种分区方法允许研究团队使用三个不同的大型数据集来分别训练各个部分的模型。这就像是让三个专门的专家分别负责不同的领域,而不是让一个通才来处理所有问题。对于身体部分,团队使用了一个包含13664个扫描数据的数据集,经过质量筛选后保留了7110个高质量样本,涵盖了广泛的身体形状、年龄和种族多样性。

在数据处理过程中,研究团队只使用每个受试者的一个放松姿态扫描数据,尽管添加更多姿态可能会提高模型在某些区域(如腋下)的保真度。数据被配准到MHR的LOD1拓扑结构,即18439个顶点,这在细节和计算效率之间取得了良好的平衡。

配准过程采用非刚性ICP方法,结合了数据损失和正则化损失的混合方案。主要的数据损失是L2点到面距离,在所有数据顶点上求和。为了使配准更加稳健,团队还加入了L2关键点损失,测量MHR关节与推断的3D关键点之间的差异。这些3D关键点是通过从多个视角渲染网格、提取2D关键点并根据虚拟相机的3D标定进行三角测量得到的。

由于全身数据集中的手部和头部质量不够理想,研究团队使用了独立的专门数据集来建模这些部位。对于手部,他们使用了一个包含3000个受试者的内部手部扫描数据集,这些扫描数据通过类似的非线性ICP流程进行配准。对于头部身份建模,团队扩展了Martinez等人在2024年收集的头部捕获数据,总共涵盖2138个受试者。

为了获得平滑的身份空间而不在身体部位之间出现断裂,研究团队为每个子集的数据乘以了软掩码,然后分别对每个加权子集运行PCA。为了增加每个数据集中可用的数据量,他们在训练模型之前对可用扫描进行了镜像处理。这种处理的一个积极副作用是,配准中包含的虚假不对称性被压缩到身体和头部子空间中的两个特定分量中,这些分量从最终模型中被移除了。

四、先进的姿态修正系统

MHR的姿态修正系统可能是整个模型中最具创新性的部分。要理解这个系统的重要性,我们可以把人体运动想象成一个复杂的机械系统。当我们弯曲手臂时,不仅仅是肘关节在运动,肌肉会收缩,皮肤会起皱,甚至连接处的软组织都会发生微妙的变形。传统的线性混合蒙皮(LBS)技术就像是用简单的铰链来模拟这种复杂运动,结果往往看起来机械而不自然。

研究团队在26000个扫描数据(13000个全身扫描,13000个手部扫描)上训练了姿态修正系统,遵循ATLAS的姿态修正定义。他们的修正函数接受6D形式的关节角度作为输入,输出顶点偏移量。这就像是为每个可能的姿态准备了一个"微调方案",当模型摆出特定姿态时,系统会自动应用相应的细微调整,让动作看起来更加自然。

在技术实现上,MHR巧妙地结合了稀疏线性操作和密集非线性操作的优点。他们将姿态修正分解为两个步骤:首先是局部的非线性操作,然后是稀疏的、基于测地线初始化的线性操作。这种设计既避免了纯非线性方法可能带来的输入耦合问题,又克服了稀疏性强制执行的困难。

局部非线性操作的工作原理很有意思。对于每个关节j,系统会处理该关节及其直接邻居关节的姿态信息。一个轻量级的多层感知器会处理关节j及其相邻的父关节和子关节,产生一个c维的嵌入向量来编码它们的姿态。这种局部关节组合的设计有效地实现了非线性表达能力,同时避免了虚假的关节-顶点相关性。

在激活机制方面,MHR使用了一个巧妙的稀疏激活策略。对于顶点i,系统将关节掩码Aj的第i个元素初始化为(1-d(i,j)),但只有当顶点i属于关节j对应或相邻的身体部位时才生效。这里d(i,j)是从顶点i到关节j周围顶点环的归一化测地距离。这种初始化方式,结合对激活函数的L1正则化,鼓励了激活的稀疏性。

训练结果显示,这种方法成功地将姿态修正集中在了被激活的关节周围,避免了传统密集映射方法可能引入的不必要关联。这就像是为每个关节配备了一个智能的"影响范围",确保每个关节的运动只会影响到它应该影响的身体部位,而不会产生奇怪的远程效应。

五、多层次细节的技术实现

MHR的一个重要特点是支持多个级别的细节层次(LOD),这就像是为同一个角色准备了不同分辨率的版本,以适应不同的应用场景和计算能力限制。系统支持六种不同的分辨率:从最高的73639个顶点到最低的595个顶点,分别适用于电影级渲染、游戏应用、移动设备和实时预览等不同需求。

姿态修正和身份模型都是在LOD1级别(18439个顶点)进行训练的,这个级别在细节和计算效率之间取得了很好的平衡。训练完成后,研究团队将获得的混合形状(身份、表情和修正MLP的最后一层)转移到其他LOD级别。这个转移过程很有技巧性:对于更低的LOD级别,使用基于最近面和重心坐标的线性映射;而对于最高的LOD0级别,则对LOD1修正进行细分以获得更平滑的结果。

在软件实现方面,MHR基于Meta的Momentum库构建,这个库为骨骼定义、参数变换和蒙皮提供了高效的C++/Python API。模型可以加载和导出为艺术家友好的格式,如Autodesk FBX和GLTF,并且可以轻松集成到PyTorch神经网络框架中。这种设计确保了MHR不仅在技术上先进,在实际使用中也非常便利。

六、性能评估与实际效果

为了验证MHR的性能,研究团队使用了3DBodyTex数据集进行了全面的评估测试。这个数据集包含200个受试者(100男100女)的高分辨率扫描数据,每个受试者都有两个不同的姿态。测试方法是优化身体形状和姿态参数,使模型尽可能贴近扫描数据,通过最小化扫描点到模型表面最近点的距离来衡量表现力。

测试结果令人印象深刻。在排除面部、头发和手部区域后,MHR展现出了比SMPL和SMPL-X更低的拟合误差,而且使用的组件数量更少。这证实了MHR在表示未见过身份的人体姿态形状方面具有出色能力。从定性结果来看,MHR在关节极值处(如肘部和膝盖)表现特别出色,能够提供更贴近目标扫描的肩部拟合效果。

在实际应用测试中,研究团队发现MHR在处理复杂姿态时展现出了显著优势。传统模型在处理极端关节弯曲时往往会出现不自然的皮肤折叠或体积损失,而MHR的姿态修正系统能够有效缓解这些问题。特别是在手部和面部的精细动作控制方面,分区域的建模策略显示出了明显的优越性。

七、实际应用前景与技术影响

MHR的发布对整个数字人体建模领域具有深远的影响。在电影和游戏制作方面,这项技术能够显著提高数字角色的真实感,同时简化制作流程。传统上,创建一个高质量的数字角色需要大量的手工调整和优化,而MHR的参数化设计让这个过程变得更加直观和高效。

在虚拟现实和增强现实应用中,MHR的多层次细节支持使其能够适应不同的硬件性能要求。用户可以根据设备能力选择合适的细节级别,在保证视觉效果的同时确保流畅的运行体验。这对于推动AR/VR技术的普及具有重要意义。

在动作捕捉和人体分析领域,MHR的解耦设计为研究人员提供了更强大的工具。由于骨骼和外形的独立性,研究人员可以更准确地分析人体运动模式,这对运动科学、医学康复和人机交互研究都有重要价值。

MHR还为人工智能和机器学习研究开辟了新的可能性。其参数化的特性使其能够很好地与现代深度学习框架集成,为开发更智能的人体姿态估计、动作生成和行为预测算法提供了基础。

研究团队特别强调了MHR在艺术创作方面的友好性。与许多研究导向的模型不同,MHR从设计之初就考虑了实际使用者的需求,特别是数字艺术家和动画师的工作习惯。这种以用户为中心的设计理念确保了技术进步能够真正转化为实际生产力的提升。

值得注意的是,研究团队在数据使用和伦理方面也做了周全考虑。所有用于训练的数据集都经过了严格的合规性审查,确保在推动技术进步的同时尊重数据提供者的权益。MHR以清晰的、对行业友好的许可证发布,允许免费试验,这体现了开放科学的精神。

八、技术挑战与未来发展

尽管MHR在多个方面取得了突破,但研究团队也坦承地指出了一些当前的局限性和未来的改进方向。一个关键的设计决策涉及骨骼定义的简化。虽然复杂的骨骼结构能够提高仅使用线性混合蒙皮模型的准确性,但也会使姿态优化变得更加困难。考虑到MHR配备了姿态修正系统,研究团队选择了相对简化的骨骼结构,在准确性和易用性之间找到了平衡点。

在关节影响限制方面,MHR做出了实用性导向的选择。虽然线性混合蒙皮的准确性和平滑性可能受益于更大的关节影响限制,但考虑到实时应用的需求,除了最高细节级别外,所有级别都严格限制每个顶点最多受四个关节影响。这种限制在最高细节级别会导致蒙皮边界出现锐利折痕,但对于大多数实际应用来说是可以接受的妥协。

目前的MHR专注于对最小扫描数据中观察到的几何形状进行拟合和建模。与FLAME或SMPL-X等模型不同,MHR没有包含显式的眼球几何结构,这是研究团队计划在未来版本中补充的功能。他们还计划添加类似于Rasras等人开发的显式口腔系统,用于建模牙齿和舌头。

另一个重要的技术挑战是面部表情和姿态修正混合形状在MHR中是独立于身体形状的。虽然这种设计简化了系统架构,但姿态修正在不同身体形状下的准确性会有所变化,形状依赖的表情模型也能够提高真实感。研究团队将在未来工作中探索如何在姿态修正和表情上添加身体形状条件。

未来的发展方向还包括软组织和服装模型的集成、实时优化和AR/VR管道部署,以及向风格化角色的扩展。这些改进将进一步扩大MHR的应用范围,使其能够满足更多样化的需求。

说到底,MHR代表了数字人体建模技术发展的一个重要里程碑。它不仅在技术上实现了显著突破,更重要的是建立了一个面向实际应用的完整解决方案。通过将先进的计算机视觉技术与艺术创作需求相结合,MHR为数字内容创作开辟了新的可能性。随着虚拟现实、增强现实和数字娱乐行业的快速发展,像MHR这样的技术将在塑造我们与数字世界的交互方式中发挥越来越重要的作用。对于那些对数字人体建模技术感兴趣的读者,可以通过arXiv:2511.15586v1查阅完整的技术论文,深入了解这项令人兴奋的研究成果。

Q&A

Q1:MHR人体模型与传统数字人模型有什么区别?

A:MHR最大的创新是将人体的骨骼和外形完全分离开来控制,就像先设计精密骨架再包覆肌肉皮肤,而传统方法是根据外形反推骨骼位置。这样你可以独立调整身材和骨骼比例,不会相互干扰,大大提高了灵活性和真实感。

Q2:普通人能用到MHR技术吗?

A:目前MHR主要面向专业的游戏开发、电影制作和VR/AR应用,普通用户暂时无法直接使用。但随着技术普及,未来可能会出现基于MHR的消费级应用,让普通人也能创建高质量的数字替身或进行虚拟形象定制。

Q3:MHR人体模型制作一个数字人需要多长时间?

A:这取决于具体需求和细节要求。由于MHR简化了传统的手工调整流程,专业艺术家现在可以更快地创建高质量数字角色,从原来需要几周的工作缩短到几天。对于简单的数字人物,甚至可以在几小时内完成基础版本。