前言

前言

还记得上次通过 MediaPipe估计人体姿态关键点驱动 3D 角色模型,虽然节省了动作 K 帧时间,但是网上还有一种似乎更方便的方法。MagicAnimate 就是其一,说是只要提供一张人物图片和一段动作视频 (舞蹈武术等),就可以完成图片人物转视频。

于是我就去官网体验了一下,发现动作的视频长度不能超过 5 秒,当然,如果说要整长视频可以切多段处理再合成解决。主要的还是视频需要那种背景相对较纯的,不然提交表单一直报错,还有他也不能处理画面内多人物的姿态估计。

多目标人体姿态估计

为什么我要弄多目标,其实是我有次拿了一舞团的视频用 MediaPipe检测,发现一个画面中只能采集到一个人的动作数据。虽然齐舞可能就一套动作,其他的角色模型可以复制粘贴,但是有些编舞为了好看,伴舞也会根据节奏作不同的变化。所以说对于我用来采集舞蹈数据,这个很重要了,当然他也可以用在多人互动的 AR 游戏,或用在同时培训多人的动作规范检测等等场景。

要从单一人体检测到多人体姿态估计,开始我是打算用 YOLO 对画面中的多 Person 区块读出来,然后再将这些方块遍历交给 MediaPipe对指定区域作人物动作节点识别。但是最后发现有现成的算法,就是 pytorch-openpose,所以果断先用这个来体验了一下。

pytorch-openpose 简介

PyTorch-OpenPose 是一个基于 PyTorch 的开源库,它实现了 OpenPose 的功能,可以进行人的面部表情、躯干和四肢甚至手指的跟踪。它不仅适用于单人也适用于多人,同时具有较好的鲁棒性。要运行 PyTorch-OpenPose,需要安装支持 CUDA 的 PyTorch,以下例子有使用作者提供的预训练模型,通过拆分视频帧,绘制多人物动作线条保存图片,最后将图片合成为视频。

环境

环境

scikit-image
opencv-python
scipy
matplotlib
numpy

编码

编码

帧拆分绘制

视频合成