极智AI | Whole-Body Multi-Person人体姿态估计之AlphaPose

欢迎关注我的公众号 [极智视界],获取我的更多经验分享

大家好,我是极智视界,本文来介绍一下 Whole-Body Multi-Person人体姿态估计之AlphaPose。

邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码下载,链接:t.zsxq.com/0aiNxERDq

Whole-Body、Multi-Person 人体姿态估计增加了挑战,那么 AlphaPose 的解法到底是什么样的呢?一图胜千言,如下,

这张图很好介绍了 AlphaPose 对于 Multi-Person、Whole-Body 人体姿态估计和追踪的解法流程,图下部分的 i、ii、iii 是 AlphaPose 的三个阶段,分别是目标检测姿态估计跟踪。从这三个阶段其实就可以看出,AlphaPose 是属于 Top-down 方法,所谓的 Top-down 方法也就是前面先用一个检测器先把人给框出来,然后再分别送入人体姿态估计网络,也就是所谓的两阶段的姿态估计方法。

  • i => Human Detections ==> 直接采用现成的、成熟的目标检测器就行,比如 YoloV3、比如 EfficientDet;
  • ii => Human Pose Estimation ==> 是 AlphaPose 最为核心的地方,也是创新点最多的地方,基本上每个 a、b、c、d、e 都会有创新在里面,是需要后面着重介绍的地方;
  • iii => Human Pose Tracking ==> 是将行人 re-ID 和 形体姿态估计相结合用于人体的跟踪;

下面来介绍重点的 a、b、c、d、e。

  • a => SIKR ( Symmetric Integral Keypoint Regression ) ==> (1) 为了解决 heatmap soft-argmax 操作 (integral regression) 的不对称性,直接计算的话,里面的梯度振幅由像素坐标的绝对值决定,是不对称的,这会导致 CNN 网络在训练的时候出现震荡,不利于网络的收敛。这里是提出了一种反向传播中的梯度对称函数 (ASG) 来解决这个问题;(2) 为了解决与 size 相关的 keypoints 的估计问题,什么意思呢?多人的姿态估计不同于单人的姿态估计,不仅需要关节位置,还需要姿态 NMS 的联合置信度来计算 mAP。在以往的方法中,采用 heatmap 的最大值作为联合置信度,而这是和 size 相关的,是不准确的,所以这里采用了一种 Two-step heatmap normalization 的方法来解耦置信度预测和积分回归,以消除 size 的影响;
  • b => P-NMS (Parametric Pose Non-Maximum-Suppression) ==> 对于 Top-down 的方法来说,主要的缺点是一旦前面的目标检测器失败了,那么对于后面的形体姿态估计就很难了。之前的一些 Top-down 方法为了解决这个问题,通常是需要把前面检测器的置信度阈值设置得很高以避免冗余姿态。而这里的做法是相反的,把前面检测器的置信度阈值设置得很低 (只是设置为 0.1),这样检测的召回率就会高。当然这也会造成冗余的检测框增加,从而带来冗余的形体姿态,而 P-NMS 就是用来消除这些冗余的;
  • c => PGA (Pose-Guided Alignment) ==> PGA 是采用 Pose-Guided Attention 机制来预测人体 re-ID 特征,获得姿态对齐的人体 re-ID 特征。形体 re-ID 特征能够用来从众多的形体 proposals 中识别同一个人,对于多人的场景,检测框中还可能包含其他人的关节,而这里是只是想提取感兴趣的形体。做法是使用预测的形体姿态来构造一个人体集中的区域,然后 PGA 来强制只提取特征集中于感兴趣区域的形体,从而忽略背景的影响;
  • d => MSIM (Multi-stage Identity Matching) ==> 多阶段的身份匹配用于最终的人体跟踪,包括考虑形体姿态、re-ID 特征和检测框。形体的跟踪通常是针对于视频序列,对于形体姿态、re-ID 特征、检测框,它们其实每一个都能够用于行人跟踪,但综合考虑三者,明显能够提高跟踪的鲁棒性;
  • e => Proposal Generator / Knowledge Distillation ==> 在训练阶段,采用 proposal生成器 和 知识蒸馏来提高网络的泛化能力;

下面的图再一次展示了 AlphaPose 整体架构,整个系统可以分为五个模块:Data Loader -> Detection -> Data Transform -> Pose Estimation -> Post Processing

在 Whole-Body Multi-Person 人体姿态估计和跟踪领域,训练数据集是比较匮乏的,之前比较多的是 Only-Person 人体姿态估计的数据集。在 AlphaPose 的训练中,也提出了一个新的称为 Halpe-FullBody 的数据集用于训练这种任务,标注的关键点包括 body & foot、face、hand,如下,

下面是 AlphaPose 一些姿态估计的检测效果图展示,



下面是 AlphaPose 人体跟踪的效果展示,

好了,以上分享了 Whole-Body Multi-Person人体姿态估计之AlphaPose,希望我的分享能对你的学习有一点帮助。


【公众号传送】

《极智AI | Whole-Body Multi-Person人体姿态估计之AlphaPose》

畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球, 星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。不敢说会对你学习有所帮助,但一定非常好玩,并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq

相关推荐
海盗儿19 分钟前
Attention Is All You Need (Transformer) 以及Transformer pytorch实现
pytorch·深度学习·transformer
GIS小天30 分钟前
AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月7日第101弹
人工智能·算法·机器学习·彩票
阿部多瑞 ABU39 分钟前
主流大语言模型安全性测试(三):阿拉伯语越狱提示词下的表现与分析
人工智能·安全·ai·语言模型·安全性测试
cnbestec1 小时前
Xela矩阵三轴触觉传感器的工作原理解析与应用场景
人工智能·线性代数·触觉传感器
不爱写代码的玉子1 小时前
HALCON透视矩阵
人工智能·深度学习·线性代数·算法·计算机视觉·矩阵·c#
sbc-study1 小时前
PCDF (Progressive Continuous Discrimination Filter)模块构建
人工智能·深度学习·计算机视觉
EasonZzzzzzz1 小时前
计算机视觉——相机标定
人工智能·数码相机·计算机视觉
猿小猴子1 小时前
主流 AI IDE 之一的 Cursor 介绍
ide·人工智能·cursor
要努力啊啊啊1 小时前
Reranker + BM25 + FAISS 构建高效的多阶段知识库检索系统一
人工智能·语言模型·自然语言处理·faiss
EasyDSS2 小时前
国标GB28181设备管理软件EasyGBS远程视频监控方案助力高效安全运营
网络·人工智能