打开网易新闻 查看精彩图片

SPIN这篇文章结合了基于回归和基于优化的方法来进行3D人体的姿态和形状估计。在训练时用一个网络回归SMPL的参数,该网络回归的结果可以作为迭代拟合模块的初始值,而迭代拟合模块的结果又可以作为前面回归模块的监督。

基于模型(model-based)的人体姿态估计方法可以分为两种:基于优化的方法和基于回归的方法。

基于优化的方法(optimization-based methods):将参数化的人体模型(如SMPL)迭代地拟合到2D关键点上。优点是最后得到的3D人体模型可以和图片上的人体有比较精确的对齐,缺点是速度慢而且对初始化比较敏感。代表性的方法是SMPLify。

基于回归的方法(regression-based methods):用网络直接从图像回归人体模型的参数(比如SMPL的shape和pose参数)。优点是速度快,倾向于生成比较合理的人体,缺点是不能和原图有精确的对齐,而且需要大量的训练数据。代表性的方法有HMR。

打开网易新闻 查看精彩图片

基于优化和基于回归的人体姿态估计

算法流程

打开网易新闻 查看精彩图片

pipeline

算法的整体流程如上图,其实SPIN可以看出HMR和SMPLify的组合。训练时,首先通过一个网络(类似于HMR)回归出SMPL的参数,用回归出的参数来初始化迭代拟合模块(即SMPLify),SMPLify迭代地将人体模型拟合到2D关键点上,其拟合的结果用来显式的监督前面的回归网络。两个模块可以相互促进,SMPLify拟合的结果越好,对于网络回归的监督就越好,而网络回归的参数越好,对SMPLify的初始化就越好,又有助于SMPLify拟合出更好的结果,形成了self-improving的循环。

回归网络

类似于HMR,网络回归SMPL参数 和相机参数 。

通过SMPL参数可以得到人体关节点3D坐标,从而可以得到2D投影:

通常的,可以用投影损失来进行弱监督:

优化过程

迭代拟合的过程参考了SMPLify,将SMPL模型拟合到当前图片对应的2D标注上。损失函数如下:

SPIN

打开网易新闻 查看精彩图片

如上面所描述的,在一轮训练中,一张图片经过回归网络得到模型参数 ,用其来初始化迭代拟合模块。如果像SMPLify原文里那样用平均姿态来作为拟合的起始状态,优化通常会非常慢,而这里用回归的结果作为初始值就会快上不少。拟合的结果表示为 ,则可以对网络进行3D参数的监督:

可以看到SPIN的优化过程只用到了2D标注,所以此方法可以在不使用任何3D标注的情况下进行训练(当然如果有3D标注的数据效果会更好)。相比于HMR只用2D关键点投影损失的弱监督来训练网络,SPIN利用SMPLify拟合出的结果进行显式的3D监督,显著的提升了网络回归的效果。

总结

  • SPIN结合了基于优化和基于回归的方法来进行3D人体姿态估计,优化模块和回归模块形成了self-improving的循环。

  • 相比于HMR用投影损失的弱监督,SPIN利用SMPLify拟合出的3D模型参数进行显式的监督可以显著提升效果。

  • 可以在没有任何3D标注数据的情况下进行训练。

参考文献

1.SPIN https://arxiv.org/pdf/1909.12828.pdf

2.SMPLify https://arxiv.org/pdf/1607.08128.pdf

3.HMR https://arxiv.org/pdf/1712.06584.pdf

来源:知乎

作者:一止

深延科技|

打开网易新闻 查看精彩图片

深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。