基于 pytorch-openpose 实现 “多目标” 人体姿态估计|openpose|pytorch|人体姿态|动作|算法

前言

还记得上次通过 MediaPipe估计人体姿态关键点驱动 3D 角色模型，虽然节省了动作 K 帧时间，但是网上还有一种似乎更方便的方法。MagicAnimate 就是其一，说是只要提供一张人物图片和一段动作视频 (舞蹈武术等)，就可以完成图片人物转视频。

于是我就去官网体验了一下，发现动作的视频长度不能超过 5 秒，当然，如果说要整长视频可以切多段处理再合成解决。主要的还是视频需要那种背景相对较纯的，不然提交表单一直报错，还有他也不能处理画面内多人物的姿态估计。

多目标人体姿态估计

为什么我要弄多目标，其实是我有次拿了一舞团的视频用 MediaPipe检测，发现一个画面中只能采集到一个人的动作数据。虽然齐舞可能就一套动作，其他的角色模型可以复制粘贴，但是有些编舞为了好看，伴舞也会根据节奏作不同的变化。所以说对于我用来采集舞蹈数据，这个很重要了，当然他也可以用在多人互动的 AR 游戏，或用在同时培训多人的动作规范检测等等场景。

要从单一人体检测到多人体姿态估计，开始我是打算用 YOLO 对画面中的多 Person 区块读出来，然后再将这些方块遍历交给 MediaPipe对指定区域作人物动作节点识别。但是最后发现有现成的算法，就是 pytorch-openpose，所以果断先用这个来体验了一下。

pytorch-openpose 简介

PyTorch-OpenPose 是一个基于 PyTorch 的开源库，它实现了 OpenPose 的功能，可以进行人的面部表情、躯干和四肢甚至手指的跟踪。它不仅适用于单人也适用于多人，同时具有较好的鲁棒性。要运行 PyTorch-OpenPose，需要安装支持 CUDA 的 PyTorch，以下例子有使用作者提供的预训练模型，通过拆分视频帧，绘制多人物动作线条保存图片，最后将图片合成为视频。