A survey on deep learning for 2D and 3D human pose estimation
Abstract
- 人体姿势估计是计算机视觉和机器人技术中的一项基本任务,涉及从图像或视频中检测人体关节。它成为一个快速发展的领域,应用范围从动作识别到医疗保健。本次调查详细回顾了基于图像和视频场景中单人和多人环境中 2D 和 3D 人体姿势估计的各种方法。我们对可用的 2D 和 3D 姿势数据集进行了全面的分类和比较,重点介绍了它们的优点和局限性。此外,我们还概述了常用于评估姿态估计模型的准确性和鲁棒性的各种评估指标和损失函数。
- 我们进一步讨论新兴趋势,让读者深入了解该领域的当前趋势。然后,我们探索姿态估计发挥重要作用的关键应用领域。该调查详细解释了人体姿势估计中的挑战,包括遮挡、数据稀缺、隐私问题、泛化问题和模型复杂性,并提出了未来潜在的研究方向。总的来说,这篇综述旨在指导研究人员理解当前的方法、数据集和应用,同时指出未解决的问题并强调人体姿势估计的未来范围。
- 人体姿态估计:从图像或视频中检测和定位人体关节点(关键点)的计算机视觉任务。
- 关节点(Keypoints):人体骨骼的连接点,如肩膀、肘部、膝盖等
- 骨架(Skeleton):关节点通过肢体连接形成的结构
- 坐标表示 :
- 2D HPE:(x, y) 像素坐标
- 3D HPE:(x, y, z) 包含深度信息
Introduction
-
人体姿势估计(HPE)是计算机视觉中一个不断发展的领域,旨在从图像或视频等视觉数据中识别和定位不同的人体关节(也称为关键点)。 HPE 具有广泛的应用领域(例如,活动监控、人机交互、游戏、摄像头监控)。计算能力的显着进步和先进深度学习技术的发展促进了更准确、更有效的姿态估计系统的发展。随着研究的进展,HPE 正在从简单地检测个人姿势发展到了解和跟踪人们随时间的移动方式。这一发展凸显了对能够捕获复杂的实时人体运动以用于现实世界应用的系统的日益增长的需求。集成时空环境的 HPE 系统可帮助 HPE 系统识别和跟踪人体随时间的运动,从而实现更精确的理解。
-
利用边缘检测和轮廓分析的传统方法是估计姿势的一些早期方法。但他们由于无法估计复杂的姿势和遮挡下的姿势而受到限制。姿态估计发展的关键转折点是主动形状模型(ASM)和主动外观模型(AAM)等模型的引入。 ASM 使用主成分分析 (PCA),通过统计建模来定位形状变化,而 AAM 则更进一步,集成了形状和纹理变化。这些模型为特征提取和统计学习等现代 HPE 方法奠定了基础。
-
深度学习的出现为姿态估计带来了突破。 Toshev 和 Szegedy 提出的 DeepPose 框架在展示 HPE 深度学习的威力方面发挥了重要作用。他们将姿势估计作为回归问题来直接预测输入图像中关键点的位置,然后使用深度网络来预测人体关键点位置。接下来是基于热图的方法,其中深度网络生成概率图,这是表示每个关节在地图中特定位置存在的概率的二维高斯分布。
Previous surveys and motivation
-
近年来发布了许多针对 HPE 的调查。目前大多数调查都集中在 2D HPE,有些只关注 3D HPE 方法。 Wang 等人 发表了关于基于深度学习的 3D HPE 方法的综合综述。但是,它不涵盖 2D HPE 方法。它还提供了几个数据集的详细信息。然而,范围仅限于 2018 年之前引入的 3D 姿态数据集。Chen 等人的另一项工作仅关注 2D HPE 方法,尽管它包括各种数据集,但缺乏对每个应用领域的比较分析。 Neupane 等人 提出了一项关于 3D HPE 方法深度学习的调查,其中讨论了不同的方法,包括基于 Transformer 和扩散的最新方法。
-
然而,调查范围仅限于 3D HPE,很少讨论 2D-3D 混合方法。此外,他们的调查中强调的未来研究方向主要是扩散模型、神经辐射场 (NeRF) 和大语言模型 (LLM) 等算法方向,而较少关注更广泛的问题,包括隐私、生物力学约束和 HPE 系统的道德部署。 Nogueira 等人 最近的一项调查包括与多视图设置中的 3D HPE 相关的方法。由于针对多视图设置的调查有限,因此他们的调查仅涉及更广泛领域的一小部分。因此,我们采用专注于 2D 和 3D HPE 深度学习方法的分类法。近年来,3D HPE 的研究趋势有所增加,这一点从该领域出版物数量的不断增加中可以看出
-
除此之外,还引入了多个不同类别的新数据集,例如 2D 数据集、3D 数据集和特定领域数据集,以支持各种研究方向。我们的调查还详细讨论了 HPE 当前的挑战和未来的研究方向,这在之前的评论中仅简要提及。
Scope of the study
-
在本次调查中,我们重点关注截至 2025 年基于深度学习的 HPE 研究,详细概述了单人和多人场景中的 2D 和 3D HPE。区分 2D 和 3D HPE 很重要,因为两者代表了 HPE 问题的不同挑战和方面。 2D 方法专注于图像空间中的关节位置,这对于基本任务来说更简单且足够。然而,它们不足以完成需要空间深度和身体方向的任务,而这对于理解现实场景中的运动模式至关重要。相比之下,3D HPE 有助于关注三维空间中的关节位置,这使其更加复杂,但对于现实场景中的应用也至关重要。考虑到这些,本次审查分别考虑 2D 和 3D HPE 方法,但将其视为相互关联的领域。
-
我们对之前采用深度学习方法进行 2D 和 3D HPE 的工作进行了详细分析。我们讨论 HPE 的优势和局限性,并对不同方法进行比较。我们根据涉及的人数(单个人或一群人)对不同的方法进行分类,并根据输入是图像还是视频进一步区分。本文不仅讨论了各种数据集,还概述了应用程序及其在各种方法的基准性能中的作用。通过强调 HPE 中的新兴方法和主要挑战,本次调查旨在提供 HPE 的完整概述,并强调 HPE 领域未来研究方向的机会。我们提供了多个插图和表格,以确保清晰度并使调查更易于理解。此外,我们还提供了一组时间表图,涵盖 HPE 方法的演变、硬件趋势和数据集。这让读者能够概览 HPE 领域的历史进展和当前趋势。我们的贡献包括:
- 自 2010 年以来,对 2D 和 3D HPE 的不同深度学习方法进行了详细回顾和分类,根据输入模式(图像与视频)、人数(单人与多人)和各种架构策略对各种方法进行系统分类。这有助于读者了解 2D 和 3D HPE 的研究趋势。
- 对 2D 和 3D HPE 广泛使用的基准数据集(包括真实数据集和合成数据集)进行严格检查。与之前的大多数调查不同,我们批判性地检查了它们的优点、缺点和偏见(在室内实验室环境中捕获,仅捕获某些人口统计类别)。我们还提供表格表示,突出显示每个数据集的重要细节以及常见数据集基准结果的表格比较。
- 深入回顾用于 2D 和 3D 姿态估计的人体模型和评估指标,这对于理解各种方法的性能至关重要。
- 回顾 HPE 在医疗保健、体育、婴儿监护、人机交互和自动驾驶系统等各个领域的应用。
- 讨论新兴研究趋势,包括扩散模型和 LLM 驱动的姿势推理。
- 除了总结现有评论之外,我们还讨论了 HPE 领域的开放挑战和未来研究方向的建议。
- 为了提高可访问性,我们提供分类法、时间表、表格和插图,使评论更全面、更容易访问。
Article selection process
-
作为文章选择过程的一部分,我们使用 Springer、IEEE Xplore、Google Scholar、ACM Digital Library、Elsevier 和 Web of Science 等主要存储库进行了搜索。搜索是使用"人体姿势估计"、"2D 姿势"、"3D 姿势"、"人体姿势数据集"和"HPE 中的深度学习"等关键字组合完成的。为了细化选择,使用了"AND"、"OR"等布尔运算符。为了确保全面覆盖,使用了"活动识别"和"姿势跟踪"等同义词。选择2010年至2025年期间发表的论文进行评审。选择了明确将深度学习方法应用于 HPE 的文章。
-
我们使用某些排除标准来筛选论文。在论文选择过程中应用了以下排除标准(EC):
- EC1:以英语以外的语言撰写的出版物被排除在外。
- EC2:主要关注基于硬件的姿态估计方法(例如,仅可穿戴解决方案、基于传感器的方法)的工作被排除在外。
- EC3:技术博客或未发表的作品被排除在外。
- EC4:排除在多个存储库中重复发现的论文(例如,Springer 和 Google Scholar 中都存在的论文),仅保留一个实例。
- EC5:包含人体单个部分(头部或眼睛,或仅手)的论文被排除在外。只考虑对全身或至少上半身起作用。
-
最终选择的论文包括 196 篇论文,这些论文经过精心挑选,以平衡方法论的进步并与研究重点相关。图 1 显示了用于本研究的期刊和会议的百分比。
-

-
图1 应用排除标准后期刊和会议的出版物分布
-
Article organization
-
本文的其余部分组织如下:图 2 讨论了 HPE 中使用的各种数据集。第 3 节探讨不同的人体模型。第 4 节深入研究了 Sects 的 2D 姿态估计。 4.1 和 4.2 重点关注基于 2D 图像的方法和门派。 4.3 和 4.4 关于基于视频的方法。第 5 节讨论 3D 姿态估计,其中 Sects. 5.1 和 5.2 涵盖了基于图像的方法,随后是 Sects。 5.3 和 5.4 讨论基于视频的方法。第 6 节解释了 HPE 训练和评估中常用的损失函数和评估指标。第 7 节讨论 HPE 在各个领域的应用。第 8 节讨论 HPE 中的新兴范例。第 9 节讨论了 HPE 面临的挑战和未来的研究方向。最后,第四节总结了主要结论。 10.图 2 展示了本次调查中使用的方法和途径的分类。图 3 所示的时间线总结了本次调查中讨论的 2D 和 3D HPE 使用的里程碑和数据集,时间跨度为 2010 年至 2025 年。
-

-
图 2 HPE 方法的分类以及本次调查中如何审查它们
-

-
图 3 2010 年至 2025 年 HPE 的里程碑和硬件趋势。a 2D 方法,b 3D 方法,c 数据集,d 硬件趋势
-
-
人体姿态估计
Human Pose Estimation
2D姿态估计
单人姿态估计
基于图像
直接回归法
热图检测法
基于视频
时序建模
光流法
多人姿态估计
自上而下
自下而上
3D姿态估计
单人姿态估计
全监督
弱监督
无监督
多人姿态估计
自上而下
自下而上
集成方法
核心组件
数据集
人体模型
损失函数
评估指标
应用场景
医疗健康
体育运动
人机交互
自动驾驶
前沿方向
扩散模型
大语言模型
多模态融合
Datasets used for HPE
- 数据集在 HPE 中的训练和验证各种模型方面发挥着至关重要的作用。在过去的几年里,已经开发了各种数据集类型,它们解决了不同的挑战,例如遮挡、复杂的姿势和多样化的环境。数据集包括 2D 和 3D 图像和视频,包括单人和多人实例。这些数据集包括关键点注释,其中一些提供附加信息,例如活动类别、关节可见性和其他信息。本节详细回顾这些数据集。表 1 按时间顺序列出了用于 2D 和 3D HPE 的各种数据集。
-

-
表1 2D和3D人体姿态估计数据集总结
-
Datasets for 2D HPE
-
2D HPE 数据集提供二维空间中人体的关节注释,通常为每个关节的 (x,y) 坐标。图 4 给出了 2D HPE 数据集的示例。表 2 展示了流行 HPE 数据集的基准测试结果。
-

-
图 4 来自 MPII 人体姿势数据集的 2D HPE 图像样本
-

-
表2 各种方法在流行的HPE数据集上的基准结果
-
-
2D数据集对比
数据集 年份 规模 关节点数 场景特点 优缺点 LSP 2010 2K图像 14 体育运动 挑战性动作多,但规模小、多样性有限 FLIC 2013 5K图像 10 电影场景 真实背景丰富,但仅上半身、无时序 MPII 2014 40K图像 16 日常活动 491种活动、野外场景,benchmark标准 COCO 2017 328K图像 17 通用场景 大规模、多样性高,但室内外不平衡 PoseTrack 2017-2021 视频序列 14-15 多人跟踪 时序一致性评估,但仅2D EHPT-XC 2024 16K图像 - 极端条件 低光+运动模糊,事件相机引导
Leeds sports pose (LSP)
-
LSP 是一个用于分析各种体育活动中姿势估计的数据集。它有 2000 张图像,每个人都标注了 14 个关键点。该数据集中的图像代表进行各种运动类别的人们,例如田径、体操等。它由具有挑战性的身体姿势和快速动作以及运动器材造成的遮挡的图像组成。
-
为了解决这些问题,提出了一个称为 LSP 扩展 (LSPE) 的扩展版本,其中包括 10,000 个图像。然而,数据集的规模相对较小,姿势的多样性仍然有限。这使得它不足以训练需要大量数据才能很好地泛化的深度学习模型。虽然它专注于具有挑战性的条件,但其应用仅限于体育和相关活动,这降低了其对日常场景的泛化能力。最后,它的注释仅限于 14 个关键点,与较新的数据集相比较少。
Frames labeled in cinema (FLIC)
-
该数据集包括从好莱坞电影中拍摄的 5003 张图像,其中大约 20,000 人执行各种动作。每帧中注释了十个上半身关键点。它仅关注上半身关键点,这限制了其在全身 HPE 中的应用。
-
与其他特定领域或受实验室环境限制的数据集不同,FLIC 包含来自好莱坞电影的真实图像。这引入了现实背景、服装变化和身体姿势。它仅注释了 10 个上半身关键点,这可能会阻碍其在全身 HPE 方法中的应用。此外,由于它由从电影中提取的各个帧组成,因此它缺乏时间上下文。
Joint-annotated human motion database (JHMDB)
- JHMDB 数据集专注于视频中的动作识别和姿势估计。它是人体运动数据库 (HMDB)动作识别数据集的子集,该数据集包含 51 个动作类别和 7,000 个手动注释的剪辑。JHMDB 由 928 个视频片段组成,约 31,838 帧,每个人执行 21 个动作之一,例如挥手、跑步、行走等。每个人都使用 15 个关键点、分割掩模和光流进行注释。这套丰富的注释提供了密集的视频级动作标签和细粒度的姿势监督。剪辑被修剪成短序列,这有助于分析姿势和运动动态。该数据集由不同体型、不同姿势和遮挡的人类组成。然而,与其他数据集相比,JHMDB 相对较小。由于视频被修剪为短序列,它可能会简化识别,但可能无法捕获长期运动动态,而这对于现实世界的设置至关重要。
Max planck institute for informatics (MPII)
- MPII 数据集 是使用最广泛的 2D HPE 基准之一。它由每个人的注释组成。该数据集包含日常活动、运动等各种活动。每个姿势都使用 16 个关键点(身体关节)表示,每个图像都有动作标签和可见性标记。它包括 28,821 个训练图像和 11,701 个测试图像,以及超过 40,000 个带注释的人物。与之前的数据集不同,MPII 的活动或受控环境中记录的活动数量有限,由 491 项活动组成。这些图像取自不同的 YouTube 视频,并且为注释文件中的每个关节给出了可见性标志。该数据集很有价值,因为它包含许多野外场景,这意味着它捕获了具有各种背景和身体姿势的多样化真实场景。包含其他标签(例如可见性标签和活动类别)使其适合上下文感知的 HPE 研究。大多数情况下,主要的 2D HPE 架构,如 Stacked Hourglass、ViTPose 和 TokenPose 报告了该数据集的结果,使其成为 2D HPE 的基准。
Common objects in context (COCO)
- COCO 是一个大型数据集,由 328,000 张图像和超过 250,000 个标记实例组成。每张都注释有 91 个对象类别和 5 个解释场景的标题。这个大型数据集包含用于分割、对象检测和关键点检测的注释。该数据集中使用 17 个关键点来表示每个人 。该数据集中的每个注释包括图像文件名、图像的宽度和高度、对象类、边界框坐标、分割掩码、关键点坐标以及描述每个场景的五个标题。它由日常活动、拥挤场景、人与人之间复杂互动等广泛的活动组成。由于其多样性,研究人员将其用于基准测试。 COCO 的作者引入了对象关键点相似度 (OKS),它扩展了并集交集 (IoU),成为多人基准测试的标准指标。尽管它的数据多种多样,但某些活动也存在不平衡。例如,公共和室外环境的代表性较高,而室内和工业环境的代表性相对较少。
PoseTrack
-
该数据集是基于视频的多人跟踪数据集。 PoseTrack 数据集共有三个版本,分别是 PoseTrack17、PoseTrack18 和 PoseTrack21。第一个版本 PoseTrack17 由 60 个视频剪辑组成,其中使用 14 个身体关键点和头部周围的边界框进行全身注释。还为所有关节分配了遮挡标志。PoseTrack18使用 15 个身体关节扩展了数据集,包含 550 个视频序列和 66,374 帧。 2021 年晚些时候,通过重新注释 PoseTrack18 的视频引入了 PoseTrack21。
-
它还为小尺寸主体引入了闭塞关节和边界框的注释。因此,它用于人员搜索和多对象跟踪。此外,还使用唯一的 ID 来跟踪人员,从而可以从他们进入画面的那一刻直到他们离开进行跟踪。该数据集用于基于视频的 HPE 中的基准测试目的。它包括不同种类的日常活动,包括室内和室外活动。但是,它仅包含 2D 视频序列。与流行的 COCO 和 MPII 数据集不同,PoseTrack 由视频序列而不是单个帧组成,从而能够评估帧之间的时间一致性。
Event-guided human pose estimation and tracking in extreme conditions (EHPTXC)
-
EHPT-XC 数据集 通过关注弱光和运动模糊条件等具有挑战性的场景来解决 HPE 的主要挑战。现有的大多数数据集在光照充足的正常场景下工作良好,但在极端场景下故障率很高。 EHPT-XC 使用三联相机系统,由一个 RGB 相机和一对事件相机组成,有助于捕捉光线不佳或运动模糊的场景。该数据集包含弱光或强光以及室内或室外场景的均衡数据量。它由 16K 图像和 38K 带注释的姿势组成。
-
事件相机的集成使研究能够进入事件引导的 HPE,这有助于捕捉快速运动和不均匀的照明条件。然而,数据是2D的,没有3D信息,这使得它不适合3D应用。与其他大规模数据集相比,该数据集的大小也相对较小。作为一个新引入的数据集,它尚未制定一致的评估标准,因此目前很难对不同方法进行比较。
Datasets for 3D HPE
-
HPE 3D 数据集包含在三维空间中标记人体关键点的数据。这些数据集用于训练可以执行 3D HPE 的模型。图 5 给出了 3D HPE 数据集的示例。
-

-
图 5 HPE 3D 数据集的示例。 a 使用动作捕捉 (MoCap) 系统在室内实验室环境中捕获的人类 3.6M 数据集中的样本。 b 来自 SURREAL 数据集的样本 ,这是一个使用 SMPL 模型提供 3D 姿态、深度和分割掩模的合成数据集
-
-
数据稀缺性是3D HPE的核心挑战。合成数据(如SURREAL)可以缓解,但在复杂场景和生物力学精度上仍有差距。3D数据集对比
数据集 年份 规模 采集方式 场景 局限性 Human3.6M 2013 3.6M帧 MoCap系统 室内实验室 仅11个演员、15个动作、多样性不足 MPI-INF-3DHP 2017 1.3M帧 无标记MoCap 室内外 仅8个演员 SURREAL 2017 6.5M帧 合成数据 虚拟场景 缺乏真实感、复杂场景表现差 Fit3D 2021 3M图像 Vicon MoCap 健身场景 领域特定、缺乏生物力学分析 WorldPose 2024 世界杯数据 多相机 足球比赛 仅男性运动员、领域特定 AthletePose3D 2025 165K姿势 多相机 12种运动 仅8个受试者
Human 3.6M
- Human 3.6M 数据集是用于对基于 3D 视频的 HPE 进行基准测试的最大且最常用的数据集之一。顾名思义,它由 360 万个人体 3D 姿势组成,这些姿势是使用由四个摄像头和飞行时间 (ToF) 深度传感器组成的运动捕捉系统捕获的。该数据集包括 11 名(六名男性和五名女性)专业演员的视频记录。它具有 15 种不同的活动,例如坐着、吃饭、摆姿势、讨论等,这些活动是从受控的室内环境中捕获的。每个人体姿势由32个关键点表示。除了 3D 数据外,该数据集还提供 2D 投影和相机校准参数。平均每关节位置误差 (MPJPE) 和 Procrustes 对齐的平均每关节位置误差 (PA-MPJPE) 是在 Human3.6M 数据集上评估方法的标准指标。该数据集还引入了各种场景,包括遮挡、相机运动和服装变化。由于数据集是在受控的室内实验室环境中记录的,这可能会限制其推广到其他场景。该数据集的主题多样性受到限制,因为它仅包含 11 个参与者,不代表不同的年龄组和种族。这可能会使模型性能对数据集中未表示的组产生偏差。此外,它涵盖了 15 个动作类别,相对较低,并且无法捕捉完整的现实世界运动和复杂的社交互动。
MPI-INF-3DHP
- 该数据集包含带有 3D 注释的人体姿势,通过先进的无标记运动捕捉系统捕获。该数据集包含 8 名演员执行各种动作,如行走、坐着、锻炼等。它包含使用 14 个摄像机捕获的超过 130 万帧。为了提高训练期间的泛化能力,使用复杂的相机视角和服装变化以及在非实验室环境中捕获数据集。大多数数据集是使用放置在人胸部高度的摄像机记录的,这使得主体清晰可见。因此,在此类数据集上训练的模型在对从复杂角度捕获的图像或视频进行测试时很难估计姿势。然而,摄像机在不同角度的定位使得 MPI-INF-3DHP 数据集对于视点不变的姿态估计方法非常有价值。除了评估 3D HPE 方法的标准指标 MPJPE 之外,他们还引入了 3D PCK 和 AUC,将标准扩展到 MPJPE 之外。然而,该数据集仅包含八个参与者,这限制了多样性,并且可能会导致对其训练的模型产生偏差。
Synthetic humans for real tasks (SURREAL)
- SURREAL 是一个 HPE 合成数据集,具有 3D 姿态、分割掩模和深度图。它由 67,582 个具有合成人体姿势的剪辑中的 6,536,752 帧组成。这些图像看起来很逼真,具有各种身体形状、摄像机角度等。该数据集包含各种姿势、光照变化、服装、摄像机角度和背景,这有助于概括各种条件。值得注意的是,Varol 等人 表明,在 SURREAL 上训练的模型在与其他数据集进行微调时,可以很好地推广到真实模型。尽管数据集很丰富,但在复杂和拥挤的场景中缺乏真实感。此外,由于它不能捕获人体运动的细粒度生物力学方面,这限制了其在生物力学和康复应用中的适用性。
Fit3D
- Fit3D 是一个大型健身数据集,拥有超过 300 万张图像和各自的 3D 姿势。该数据集包含 37 个练习,例如热身、哑铃练习等,由 13 名学员和教练进行。使用动作捕捉系统 (Vicon) 在每个记录中跟踪人的动作。该数据集有 2,964,236 张图像(2,278,572 张图像用于训练和验证,685,664 张图像用于测试)。它是使用 12 个摄像头 Vicon MoCap 设置和四个 RGB 摄像头进行录制的。该数据集涵盖广泛的健身活动和运动类型,对于基于人工智能的健身助理和反馈机制来说非常高效。然而,该数据集是特定领域的,仅关注与健身相关的动作。尽管它很好地对健身相关活动进行了分类,但它没有结合生物力学分析来确定运动是否正确进行并且不会造成拉伤或伤害。
AthletePose3D
- AtheletPose3D 是一个数据集,旨在解决体育领域现有 HPE 数据集的缺陷。在实验室和溜冰场环境中收集的数据集包含 12 项运动动作和 165K 个带注释的姿势。根据每项运动运动的复杂性,他们使用了带有四个、八个或十二个高速摄像机的多摄像机设置。实验表明,现有的基准测试数据集,例如 Human 3.6 M ,在运动数据上表现不佳。相比之下,AthletePose3D 上的微调可将 MPJPE(平均每个关节位置误差)降低 70% 以上,从而提高性能。然而,该数据集是使用八名进行特定运动的受试者收集的,这可能会限制其泛化能力。
Human body models
-
人体模型在表示人体的结构和运动方面起着至关重要的作用。它们有助于从输入数据中识别和提取各种特征。图6代表各种人体模型。表示人体常用的模型有骨骼模型、平面模型、运动学模型和体积模型。
-

-
图 6 不同的人体模型。 a 骨骼模型,b 平面模型,c 运动学模型,d 体积模型
-
| 模型类型 | 表示方式 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| 骨骼模型 | 关节点+肢体连线 | 简单直观、计算高效 | 忽略形状信息、无运动约束 | 2D/3D基础任务 |
| 平面模型 | 矩形/轮廓 | 包含形状信息 | 简化表示、缺乏细节 | 早期跟踪方法 |
| 运动学模型 | 关节+DoF+约束 | 物理合理性、角度约束 | 建模复杂 | 生物力学、康复 |
| 体积模型 | 3D网格/体素 | 完整几何信息 | 计算量大、数据需求高 | 虚拟现实、动画 |
Skeletal model
- 这是用于表示人体的最常见模型。人体被认为是一个由关节(肩膀、肘部等)组成的结构化骨骼系统,通过代表四肢的线条连接。关节的数量因一种表示形式而异(COCO 为 17 个,MPII 为 16 个)。这广泛应用于 2D 和 3D HPE。这组具有相互连接的肢体的关节形成了一个图形结构。然而,这种表示在模拟复杂的人体运动方面存在局限性,因为它没有考虑关节的运动约束或旋转约束。
Planar model
- 平面模型,也称为基于轮廓的模型,使用矩形和圆形等数学图形来表示人体的形状和外观。朱等人提出了一种用于人体跟踪的纸板人模型,其中身体的每个部分都使用在关节位置连接的矩形来表示。然后使用八参数运动模型来表示运动。然而,这些表征仅提供了人体的粗略和简单的表征,缺乏真实的形状和精细的细节。后来,Freifeld等人提出了一种表示详细身体轮廓的2D轮廓人物模型。这描绘了人体的自然形状,并代表了每个人的形状如何变化。
Kinematic model
- 在运动学模型中,人体使用具有运动学约束的连接关节来表示。 Mehta 等人使用运动学骨架拟合来实现实时 3D HPE。他们计算了骨骼长度图,这有助于确保骨骼的稳定性并指导预测。在运动学骨骼拟合阶段,他们用预定义骨骼的固定骨骼长度替换了预测的 3D 姿势的骨骼长度。这种重新定位可保证骨骼长度在各帧中保持一致。近年来,运动学模型在 3D HPE 中受到了极大关注。在这些模型中,每个关节都具有可以执行运动的特定自由度 (DoF)。例如,肩关节有 3 个 DoF,即绕 3 个轴旋转:偏航、俯仰和滚动。此外,运动学约束确保每个关节仅在人体运动的生物学可行范围内移动。
Volumetric model
-
体积模型用于在三个维度上表示人类的形状和姿势。经典方法使用圆柱体和圆锥体等几何形状来表示姿势。后来引入了 SCAPE(Shape Completion and Animation for PEople),用于构建考虑个体体型和姿势变化的 3D 人体形状。他们的姿势变形模型与SCAPE 中的体形变形模型相结合,可以生成逼真的人体3D网格。 Pavlakos 等人 提出了一种通过在卷积神经网络 (CNN) 框架内集成参数统计体形模型 (SMPL) 来推进 3D 姿势估计的方法。该方法通过结合 2D 关键点和轮廓来估计 3D 结构,解决了需要大量 3D 训练数据的问题。该方法通过提供 3D HPE 的有效替代品而优于传统方法。
-
人体模型
骨骼模型
平面模型
运动学模型
体积模型
COCO:17关节点
MPII:16关节点
矩形/圆形表示
轮廓模型
自由度DoF
关节角度约束
SMPL模型
3D网格
2D HPE
-
在计算机视觉中,2D HPE 是一项从二维图像或视频中检测和识别人类姿势的任务。它检测身体的关节并将它们连接起来形成骨骼结构。估计多个姿势比基于单人的姿势估计更具挑战性和资源密集型。
-
方法分类总览
2D HPE ├── 单人姿态估计 (SPPE) │ ├── 基于图像 │ │ ├── 直接回归法 │ │ └── 热图检测法 │ └── 基于视频 │ ├── 光流法 │ ├── LSTM时序建模 │ └── Transformer时序 └── 多人姿态估计 (MPPE) ├── 自上而下 (Top-down) │ ├── 检测器+SPPE │ └── 联合优化 └── 自下而上 (Bottom-up) ├── PAFs (OpenPose) └── PIFs/PAFs (PifPaf) -
直接回归法原理 :CNN直接预测关节点坐标 (x, y),无需热图生成,计算直接,内存占用小,端到端可微。但是精度通常低于热图法,对特征对齐敏感,小误差导致高损失。适用场景:资源受限设备、实时应用。
-
热图检测法原理:生成每个关节点的概率热图(2D高斯分布),精度高,SOTA方法主流,空间信息丰富,多尺度特征融合。但是热图分辨率影响精度,高分辨率热图计算量大
Image-based 2D single-person HPE
- 基于 2D 图像的 HPE 涉及从单个 2D 图像中检测关键点。由于没有时间信息,它仅关注图像的空间特征。在单人 HPE 中,图像中只有一个人,这使得问题比多人 HPE 更简单。通过正确检测人体的每个标志,这可以用于运动分析、活动识别等应用。单人HPE的两种主要方法是:直接回归方法和基于热图的方法 。表 3 给出了基于图像的 2D HPE 方法的总结。图 7 表示了基于 2D 图像的 HPE 方法的时间线。
-

-
图 7 著名的基于图像的 2D HPE 方法的时间概述
-

-
表3 基于二维图像的单人和多人姿态估计方法总结
-
Direct regression-based methods
-
在直接回归方法中,HPE 模型直接预测输入图像中的关键点坐标,即每个关节的 (x,y) 位置。通常,他们使用 CNN 从图像中提取高级特征,然后将这些特征传递到全连接层以输出关键点坐标。基于回归的 HPE 的早期工作是 DeepPose。它使用级联回归器来提高联合定位的准确性。大多数当前最先进的(SOTA)方法都使用基于热图的方法,因为与基于回归的方法相比,它们具有更高的准确性。基于回归的方法更加简单,因为它们不计算热图。图 8 表示回归方法。基于回归的概念,TFPose 和 Poseur 等作品通过集成 Transformer 架构改进了基于回归的方法。 TFPose 将 HPE 视为序列预测问题。 TFPost 中的 Transformer 直接从 CNN 提取的特征中预测关键点的坐标。它使用多头注意力机制来解决特征错位的问题。
-

-
图 8 基于回归的 2D HPE,它使用神经网络直接从输入映射关键点。输入图像来自 MPII 人体姿势数据集
-
-
类似地,Mao 等人提出了 Poseur,这是一种基于 Transformer 的回归框架,它解决了传统基于回归的方法的局限性,同时在不同主干上优于基于热图的方法。他们的实验表明,ResNet-50 主干上的 Poseur 方法优于基于热图的 SimpleBaseline。该方法使用交叉注意力机制来解决特征对齐问题。在 MS-COCO 和 MPII 数据集上进行的实验表明,Poseur 比各种基于热图的方法获得了更高的性能,同时具有更少的计算资源和参数。
-
基于回归的方法通常比基于热图的方法获得较低的精度。将图像特征直接映射到关节坐标使得它们对特征未对准高度敏感,即使关节位置的非常小的偏差也可能导致很高的误差。
Detection-based methods
-
在基于检测的方法中,为每个关键点生成单独的热图,而不是预测它们的坐标。图 9 显示了基于热图的方法的概述。热图是二维表示,其中每个像素代表该位置存在关键点的概率。它们是使用高斯分布构建的,该分布形成钟形曲线,其峰值位于关键点的正确位置。随着距实际关键点距离的增加,像素的强度平滑减小。完整的关键点骨架是通过组合所有生成的热图而形成的。均方误差 (MSE) 是基于热图的方法中最常用的损失函数。纽厄尔等人 提出了堆叠沙漏网络(Stacked Hourglass Network),该网络因其多尺度特征处理而闻名。该架构遵循沙漏状结构,由编码器-解码器结构组成。八个这样的模块堆叠在一起形成堆叠沙漏模型。编码器通过逐步对输入图像进行下采样来捕获高级特征,然后解码器将它们上采样到原始分辨率。还实现了从相应的编码器层到解码器层的跳跃连接。该模块的输出提供与每个关键点对应的热图。
-

-
图 9 2D HPE 中基于热图的方法,通过将高斯核放置在真实关键点位置来生成热图,并训练模型来预测每个关节位置的关键点。输入图像来自 MPII 人体姿势数据集 生成的热图
-
-
许多其他后续模型通过实施并行管道、基于 Transformer 的网络和生成对抗网络(GAN)来采用新颖的架构来应对各种挑战。 Papaioannidis 等人 提出了一种基于 CNN 的自治系统 HPE 网络。该模型具有更简单的架构,由两个头组成,一个用于热图预测,另一个用于模拟人体结构的基于 GAN 的图像到图像 (I2I) 框架。HRNet 是一个 SOTA 并行网络,可在整个网络中保持高分辨率表示。编码器-解码器类型的架构,例如 HRNet,可能会导致特征丢失。尽管如此,通过在整个网络中保持高分辨率表示,HRNet 保留了细粒度的细节。
-
随着 HPE 应用扩展到资源受限的嵌入式和移动设备,研究人员开始探索轻量级架构。 LAP 是一个基于堆叠沙漏主干的轻量级模型,只有两个堆栈。LAP 中标准卷积层被深度可分离卷积取代,显着减少了计算负载。此外,还集成了卷积块注意模块(CBAM)以关注特征图的关键区域。 LAP 的架构如图 10 所示。一些工作还通过应用各种优化技术,使用 HRNet 骨干网来实现轻量级 HPE。高效轻量级 HRNet (EL-HRNet) 是另一种使用 HRNet 主干的轻量级架构。 EL-HRNet 在残差模块中使用分组和逐点卷积,从而最大限度地减少参数和计算成本。
-

-
图 10 具有 CBAM 注意力模块的 LAP 中的堆栈架构
-
-
尽管基于热图的方法已经取得了很强的性能,但它们也有一些局限性。这些方法的准确性取决于热图分辨率:高分辨率热图可以实现精确的关键点定位,但它们可能会增加计算开销和高内存使用量,而较低分辨率热图会降低准确性,尤其是在复杂场景中。虽然 LAP 和 EL-HRNet 等轻量级架构尝试通过深度卷积或分组卷积等有效方法来降低计算成本,但它们的精度通常较低,尤其是在具有挑战性的场景中。
Image-based 2D multi-person HPE
- 多人姿态估计(MPPE)处理包含多个个体的图像。这比 SPPE(单人姿势估计)更具挑战性,因为模型需要处理人数以及人与人之间的遮挡。 MPPE可分为自上而下和自下而上两种方法。图 11 和 12 分别代表自上而下和自下而上的方法。
-

-
图 11 自上而下方法的图示,该方法首先检测每个人,然后对每个人应用姿势估计模型。输入图像来自 MPII 人体姿势数据集
-

-
图 12 自下而上方法的图示,该方法首先检测所有关键点,然后将它们分组到个人。输入图像来自 MPII 人体姿势数据集
-
Top-down approaches
-
自上而下的方法包括两个步骤:首先使用对象检测模型从图像中检测每个人,然后对每个检测到的个体应用 SPPE 方法。与自下而上的方法相比,自上而下的方法具有更高的准确性,因为它们确保每个关键点与检测到的人正确关联。
-
人员检测步骤使用对象检测模型来使用边界框来定位人员。常用的目标检测模型有 YOLO 、Mask R-CNN 和 Faster R-CNN 。 YOLO 将目标检测表述为回归问题,从而省略了对复杂管道的需要。它专为实时应用程序而设计,因为它使用单个网络来预测边界框及其类别概率。 Mask R-CNN 通过将额外的对象掩模预测分支与边界框检测结合起来,扩展了 Faster R-CNN,这有助于精确定位。
-
检测到人员后,SPPE 应用于每个检测到的人员。由Xiao等人 提出的SimpleBaseline模型使用自上而下的方法检测关键点,其中基于Faster R-CNN的人物检测器用于检测个体。然后将这些裁剪区域通过 HPE 模型来预测关键点。与 SimpleBaseline 类似,HRNet 也使用 Faster R-CNN 来检测个体。然后将这些检测到的区域输入 HRNet,HRNet 在整个网络中维护高分辨率表示并预测关键点。
-
MPPE 中经常会出现人员重叠、背景复杂等挑战。先进的人物检测方法使用上下文推理等附加技术和非极大值抑制 (NMS) 等后处理方法来删除冗余边界框,从而提高检测精度。 Fang et al 提出了 AlphaPose,它不仅可以预测身体关键点,而且在精细关键点定位方面也表现良好,因为它可以预测手部和面部标志的关键点。
-
AlphaPose 使用YOLOV3 人体检测器进行人体检测。其主要贡献之一是对称积分关键点回归(SIKR),它结合使用基于热图和基于回归的方法来最大限度地减少精细关键点的量化误差。由于个体重叠而导致的冗余姿态的检测是 MPPE 中的一个主要问题。 AlphaPose 引入了数据驱动的指标,即参数化姿势非极大值抑制 (P-NMS) 来解决此问题。DetPoseNet 是一种自上而下的方法,引入了结合人体检测和姿态估计的统一网络。该模型使用从粗到细的策略,其中初始步骤检测单个镜头中的人物和关键点,然后使用姿势细化子网对它们进行细化。该方法计算效率高,基于边界框的 MPPE 加速可提高五到六倍。
-
除了基于 CNN 的架构之外,变压器架构最近也发展成为一种有效的方法。 ViTPose 是早期基于 Transformer 的方法之一,用于探索 HPE 视觉 Transformer。它使用视觉变换器 (ViT) 主干进行特征提取,然后使用轻量级解码器从热图中回归关键点。与之前基于 CNN 的方法相比,ViTPose 在具有挑战性的 COCO 数据集上获得了 SOTA 性能。
-
后来,同一组作者引入了 ViTPose++ 作为 ViTPose 的扩展,以扩大其对异构关键点的适用性。通用关键点检测任务的主要要求是它们能够处理跨各种数据集的多个姿态估计任务。这是具有挑战性的,因为不同数据集中的关键点位置不同(例如,人的"鼻子"位于肩膀上方,牛的"鼻子"始终位于其头部的左/右侧)。为了克服这些挑战,ViTPose++ 引入了知识分解框架。它使用与任务无关的专家(捕获通用姿势知识)和多个特定于任务的专家(处理特定类别或物种)。这种设计使得 ViTPose++ 在姿态估计任务中取得了更好的准确性,特别是对于全身 HPE 和其他物种的姿态估计。
Bottom-up approaches
-
自下而上的 MPPE 不是先检测人物,然后应用 SPPE,而是直接预测图像中出现的所有人物的关键点。然后模型将对属于特定人类的关键点进行分组。它们在拥挤的场景中计算效率更高,因为它们不需要检测每个个体并为每个个体应用单独的 SPPE。
-
OpenPose 是最早且著名的 MPPE 自下而上方法之一。该模型使用零件亲和力场(PAF)的概念,这有助于模型学习关键点之间的关联。该网络预测每个关节到关节连接的热图和 PAF。这种组合模型不是按顺序运行人物检测和姿势估计,而是节省了推理时间。 Kreiss 等人 提出了另一种自下而上的模型,该模型使用部位强度场 (PIF) 和部位关联场 (PAF) 来定位身体部位并分别将它们关联起来。该方法在处理拥挤和低分辨率图像方面取得了优异的性能。尽管 PIF 和 PAF 有助于关联,但当人与人之间存在大量重叠时,这可能会导致错误的连接,从而导致骨架交换或支离破碎。
-
近年来出现了几种自下而上的方法,重点关注提高关键点定位精度和提高拥挤场景中的鲁棒性。 Full-BAPose 引入了一种新颖的解缠结瀑布多孔空间金字塔(D-WASP)模块,用于多尺度特征表示。它使用 HRNet 主干网络进行特征提取。 D-WASP模块逐步使用不同膨胀率的膨胀卷积来确保大视场。它输出热图和偏移图。该偏移图有助于识别每个人的人物实例和组关键点。通过解决传统损失函数的局限性,Qu 等人提出了一种新的自下而上的方法,提高了关键点定位的准确性。最小化 L2 损失并不总能保证模型精确定位每个关键点。这项工作没有使用传统的 L2 损失,而是定义了一种基于特征函数的新方法。
-
然而,在复杂和拥挤的场景中,当人们彼此非常接近时,很难将属于每个人的关键点分组。当存在严重遮挡时,这使得自下而上的方法不太可靠。
-
多人姿态估计自上而下方法流程(Top-down:人数少、精度要求高):
- 人体检测(YOLO/Mask R-CNN/Faster R-CNN)
- 对每个检测框运行SPPE
- 后处理(NMS等)
- 分析:精度高(检测+估计分离),利用成熟检测器,单人场景表现好。但是计算量随人数线性增长,检测错误会传播,密集场景性能下降。
-
多人姿态估计自下而上方法流程(Bottom-up:密集人群、实时性要求高):
- 检测所有关节点
- 关联/分组到个体
- 分析:计算量与人数无关,密集场景更高效,端到端训练。复杂场景分组困难,遮挡时关联错误,精度略低于Top-down。
- 关键概念 :
- PAFs(Part Affinity Fields):描述关节间连接的2D向量场
- PIFs(Part Intensity Fields):部位强度场,用于定位
Video-based 2D single-person HPE
-
基于视频的 SPPE 涉及检测帧序列中个体的关键点。与独立预测每个帧/图像的姿势的基于图像的方法相比,基于视频的方法使用人体运动的时间一致性。图 13 显示了基于 2D 视频的 HPE 方法的时间线。表 4 总结了基于 2D 视频的 HPE 方法。
-

-
图 13 著名的基于视频的 2D HPE 方法的时间概述
-

-
表4 基于2D视频的单人和多人姿态估计方法总结
-
-
这些方法使用来自前后帧的信息,这有助于它们解决遮挡和运动模糊等挑战。 Pfister 等人提出了一种为基于视频的 HPE 引入深度专家池架构的方法。该方法最初独立预测每一帧的关键点。直接比较跨帧的相应关键点很复杂,因为人们从一个帧移动到另一帧。为了解决这个问题,该方法使用光流跟踪跨帧的像素移动。光流有助于对齐先前相邻帧的关键点热图以匹配当前帧。之后,应用池化操作将它们组合成每个关节的单个热图。
-
LSTM Pose Machines 的提出是为了解决捕获视频帧之间的时间相关性的问题。该方法将长短期记忆(LSTM)纳入神经网络中,以捕获长期依赖性,以确保跨帧关键点预测的一致性。权重共享方法的使用极大地减少了推理时间,即比之前的卷积姿势机 (CPM) 快 2 倍,并且具有卓越的准确性。 UniPose 是另一种基于视频的 HPE 模型,为 HPE 提供了一种新颖的统一框架。顾名思义,该方法使用 HPE 的统一网络,而不是使用单独的分支进行边界框检测和联合定位。它使用 Waterfall Atrous Spatial Pooling (WASP) 模块来有效捕获上下文信息。为了增强挑战性场景中的姿态估计,GLPose 结合了全局语义信息和局部时间线索。基于 Transformer 的架构因其捕获视频序列中的远程依赖性的能力而广泛应用于基于视频的 HPE。动态图变换器 (DGT) 是一种基于变换器的编码器-解码器架构,适用于基于视频的 HPE。
-
传统的 Transformer 模型往往忽略骨骼信息,主要关注图像特征,这可能导致动态场景下的性能不佳。为了解决这个问题,DGT集成了基于图神经网络的动态结构不变性模块,以确保人体的结构配置。此后处理步骤有助于纠正关节连接并稳定姿势。吴等人提出了 ListPose,一种用于视频姿势估计的轻量级框架。它使用 TokenPose 作为轻量级帧编码器来简化网络设计。他们还提出了一种基于 ViT 模型的新型剩余令牌初始化 (RTI) 模块。 RTI 使用先前帧的输出作为后续帧的令牌初始化,从而对帧间时空依赖性进行建模。这种方法有助于高效的时间建模,避免开销。
Video-based 2D multi-person HPE
-
多人视频 HPE 是指跨视频帧预测和跟踪多个人的姿势的任务。由于个体之间的快速移动和复杂交互等挑战,视频中的 MPPE 比视频中的 SPPE 更复杂。 Detect-and-Track是一种用于 MPPE 和视频跟踪的两阶段方法。它使用带有 3D 卷积的扩展 Mask R-CNN,使其能够从帧序列而不是单个帧中捕获时空特征。该方法扩展了区域提议网络(RPN),该网络最初用于通过管提议进行边界框预测,以预测跨多个帧而不是单个帧的边界框。
-
Wang 等人提出了一种剪辑跟踪网络,该网络适用于短视频剪辑并执行身体关键点的跟踪和检测。作者通过包含 3D 卷积来捕获空间和时间信息,扩展了 HRNet 架构。由于视频被分为多个剪辑,因此该方法使用轨迹来链接剪辑中同一个人的姿势。然后,通过跨帧匹配同一个人的姿势,将这些轨迹合并在一起。
-
另一种方法,双连续网络(DCPose)(Liu et al 2021c)引入了姿势时间合并(PTM)和姿势残差融合(PRF)来进行时空聚合和姿势残差计算。它使用 HRNET-W48 主干进行初始关键点生成,这些生成的热图由 PTM 和 PRF 模块并行处理。 DANet(双关联网络)(Yang et al 2024)仅用于视频序列,由三个模块组成。
-
双融合网络 (DFN) 计算当前帧和相邻帧的热图之间的差异,关节关联网络 (JAN) 了解可见关节的位置与附近关节的关系,这有助于预测被遮挡关节的可能位置,最后使用时空融合 (STF) 模块融合这两个模块的输出。 DANet 在 PoseTrack2017 和 PoseTrack2018 数据集上进行了验证。结果清楚地表明,DANet 通过正确检测关键点,在遮挡、运动模糊和快速运动等具有挑战性的条件下表现良好。尽管 DANet 在甚至具有挑战性的场景中也取得了更高的准确性和良好的结果,但该方法的推理速度相对较低。
-
基于图像的方法直接应用于视频可能会导致泛化能力较低,因为基于视频的方法以帧到帧的方式工作。当应用于现实场景时,HPE 应该应对运动模糊和遮挡等各种场景,因此关注帧上的时间相关性非常重要。 Gai 等人 提出了一种基于 Transformer 的架构 SLTPose,它有选择地集成时空信息,并在 Transformer 主干中保留本地和全局上下文。
-
他们使用个性化特征提取模块(PFEM)来捕获局部特征,并使用自特征细化模块(SRM)来编码全局空间关系。他们实现了跨帧时间学习模块(CTLM)来有选择地从连续帧中检索重要信息。这些模块共同使 SLTPose 即使在具有挑战性的场景中也能实现更高的精度和更好的稳定性。基于视频的 HPE 的另一个挑战与大型数据集的注释有关。对大型数据集中的每一帧进行注释既耗时又昂贵。因此,大多数现有方法都假设密集标签。另一项最近的工作,STDpose,引入了一种新颖的架构来解决稀疏标记视频中的挑战。
-
他们实现了时空表示编码器(STRE),该编码器对帧序列的表示进行联合建模。 STRE 中使用的互信息目标鼓励表示捕获与任务相关的细节。动态感知掩模 (DAM) 使用修改后的 sigmoid 函数引入了一种对长程时间动态进行建模的新方法。因此,通过使用少量标记帧在整个序列上生成高度准确的姿势注释,STDPose 最大限度地减少了对大量手动注释的需求。
-
视频姿态估计:时序建模核心挑战:运动模糊;遮挡恢复;时序一致性。
| 方法 | 技术 | 代表工作 | 优点 |
|---|---|---|---|
| 光流法 | 像素运动估计 | Pfister et al. (2015) | 显式运动建模 |
| LSTM | 长短期记忆 | LSTM Pose Machines | 长程依赖 |
| 3D CNN | 时空卷积 | Detect-and-Track | 联合时空特征 |
| Transformer | 自注意力 | DGT, ListPose | 全局时序建模 |
| 图网络 | 骨架图 | DGT | 结构约束 |
3D HPE
-
基于 3D 的 HPE 是从图像或视频中检测和预测人体关键点的 3D 位置的过程。这在游戏、虚拟现实 (VR) 和增强现实 (AR) 等领域都有应用。与将关键点映射到平面 2D 平面不同,3D 通过使用深度信息提供更真实的人体表示。3D HPE 预测人体 3D 结构的能力通过详细的运动分析提高了 HPE 系统的准确性。因此,3D HPE 成为当今的研究热点。
-
不同的 3D HPE 调查论文采用不同的范式对现有的 3D HPE 方法进行分类。一些调查根据输入数据的类型对它们进行分类,例如单眼或多视图图像和视频。其他调查侧重于根据监督范式对它们进行分类,例如完全监督、弱监督和无监督方法。此外,一些评论强调分类法,例如基于单人的 HPE 和基于多人的 HPE。在本次调查中,我们根据监督范式、关键点检测和关联方法等不同方面进行分类。
Image-based 3D single-person HPE
- 3D SPPE 是从图像预测人体关节 3D 坐标的过程。与将关节位置预测为 (x,y) 坐标的 2D HPE 相比,3D HPE 预测额外的 z 坐标,这是捕获深度空间信息的深度分量。图 14 表示基于 3D 图像的 HPE 方法的时间线,表 5 给出了基于图像的 3D HPE 方法的摘要。
-

-
图 14 著名的基于图像的 3D HPE 方法的时间概述
-

-
表5 基于3D图像的单人和多人姿态估计方法总结
-
Fully supervised methods
-
完全监督的方法依赖于具有 3D 关节注释的数据集,通常通过运动捕捉设置收集。这些方法具有更高的准确性,因为它们经过大量数据的训练。
-
Tome 等人 介绍了一种根据 RGB 图像进行 3D HPE 的方法。该网络将 2D 姿态估计与 3D 姿态提升集成在一起,这与单独处理这些任务的传统方法不同。该网络采用类似于卷积姿势机(CPM)的架构 。在网络的每个阶段,都会生成一个投影置信图,该置信图与 2D 置信图融合。这有助于增强其关键点检测能力。另一项工作 将文本提示引入 3D HPE。该方法通过将 3D HPE 转化为逆扩散过程来逐步减少预测的不确定性。为了提高扩散效率,引入了联合级文本语义。它使用 CLIP 文本编码器将文本描述转换为特征,因为 CLIP 是在数百万个文本图像对上进行训练的。有关每个关节的语义信息有助于做出更准确的预测。
-
尽管完全监督模型的准确性有所提高,但它们仍面临一些局限性。数据集的创建非常昂贵,因为它需要 MoCap 设置和大量的标记程序。此外,在受控环境(例如实验室或室内)中捕获的数据集训练的模型在应用于不受控场景时可能会表现出性能下降。
Weakly supervised methods
-
为了减少开支,研究人员已转向弱监督或半监督方法,其中网络接受一定程度的监督。常用的弱监督方法涉及使用在受控环境中收集的小型 3D 带注释数据集,以及大量 2D 带注释的姿势数据。这有助于模型在有限的受控环境之外进行泛化,甚至在野外场景中也能泛化更多以预测姿势。
-
大多数 HPE 方法都是通过输入图像和相应的真实图像之间的一对一映射进行训练的。因此,需要大量带注释的训练数据来训练这样的模型。相比之下,RepNet 使用弱监督的对抗网络来满足这一要求。在对抗网络中,生成器根据 2D 关键点预测 3D 姿势,而鉴别器确保预测的姿势位于人类姿势的合理范围内。它使用网络的运动链空间 (KCS) 层,通过计算关节角度和骨骼长度来确保预测在合理的范围内。
-
因此,RepNet 不依赖于 2D-3D 配对数据;相反,它从 2D 姿势中学习,并使用对抗性鉴别器来生成合理的 3D 姿势。然而,它并不是完全无监督的,因为鉴别器仍然需要 3D 姿势注释来学习区分正确和错误的姿势。然而,它使用神经网络来学习将 3D 姿势映射到 2D 的投影矩阵,而无需显式应用几何约束。由于网络仅根据大量数据进行训练,因此可能会留下重要的几何规则,例如变换和旋转 。因此,估计的投影参数可能不准确,导致模型做出错误的预测。为了解决这个问题,Lai等人提出了RepEPnP,这是一种弱监督方法,使用新的重投影方法,不需要任何训练。这种新的重投影方法使用数学公式对投影过程进行建模,避免了对神经网络的需要。特别是,他们使用扩展透视 n 点 (EPnP) 算法来估计外部相机参数,例如旋转和平移。生成 3D 姿势的生成器部分基于 Transformer 架构构建。它通过使用几何约束(EPnP 重投影)和对抗性先验作为监督信号来减少对大型 3D 数据的依赖。
-
CameraPose 是另一种弱监督模型,不需要直接 3D 标签。它使用具有配对 2D-3D 数据的 Human3.6 M数据集和 MPII数据集(这是一个 2D 数据集)进行训练。 CameraPose 中引入了细化网络 (RefineNet),在将其馈送到 3D 网络之前,使用置信度引导损失来细化来自 HRNet 主干网的噪声 2D 关键点。弱监督相机参数分支预测内部和外部相机参数,这有助于模型稍后将 3D 姿势重新投影为 2D。
-
该方法使用基于生成器和判别器的架构,弥补了 3D 预测和 2D 监督之间的差距。因此,当只有 2D 注释可用时,该方法通过将预测的 3D 姿势重新投影回 2D 来遵循弱监督范例。然后,它使用重投影损失将投影的 2D 关节与真实的 2D 注释进行比较,从而在没有 3D 标签的情况下提供监督。一般来说,弱监督方法有助于减少对大型注释数据集的依赖,同时仍然需要部分或间接监督。然而,它可能会受到二维标签中的错误以及对抗性训练的不稳定性的影响。
Unsupervised methods
-
大多数传统方法需要 3D 数据才能进行 3D HPE。收集 3D 数据既昂贵又耗时,因为它需要特殊的设置,例如动作捕捉系统。无监督方法旨在学习 3D 姿势,无需标记 3D 姿势数据,依赖于生成建模或几何和解剖学约束。多视图设置提供使用多个摄像机从不同角度捕获的同一姿势的多个图像。这有助于模型使用三角测量方法从 2D 关键点获取 3D 姿势,从而避免昂贵的 3D 注释。
-
Kudo 等人 提出了一种方法,可以以无监督的方式预测具有 2D 关节位置的 3D 人体姿势,而不需要 2D-3D 配对数据。他们的框架使用生成器将 2D 关节位置提升到 3D 空间。然后,沿 y 轴对生成的 3D 姿势应用随机旋转,并将其重新投影为 2D 姿势。然后鉴别器区分从生成的 3D 姿势重新投影的 2D 和真实的 2D。因此,该模型完全依赖于 2D 姿态数据集,使用生成器-鉴别器框架以无监督的方式进行训练。在像 Human3.6M 这样的数据集中,关节的深度变化有限,误差相对较小。
-
然而,当观点更具挑战性时,模型的性能会下降。另一个限制是这种无监督策略无法估计内部和外部相机参数,这会影响其在未知运动和不同相机设置中的泛化。 SingleView-Multi-Angle Consistency (SVMAC) 是一种类似的方法,但这里生成器也使用 3D 位姿估计相机参数,而不是像之前的方法那样假设固定相机。 SVMAC约束是该模型的核心部分,它通过旋转3D姿势、将它们重新投影回2D来强制自我监督,并确保从不同角度观看时预测的姿势是一致的。通过显式地建模相机参数而不是假设它们,SVMAC 减少了不同相机位置的误差并获得了更高的鲁棒性。
-
另一个问题是人员出现的规模差异,这可能会使 HPE 模型感到困惑。为了解决这个问题,Du 和 Ikenaga 使用了特征金字塔网络,该网络帮助模型一次检测不同尺度的人物关键点。他们将 2D 关键点的检测和 3D 姿势的预测结合到一个网络中,从而加速了整个过程。然而,与监督方法相比,无监督方法更容易遇到遮挡和深度模糊问题,从而产生更多解剖学上难以置信的姿势。
Image-based 3D multi-person HPE
- 基于图像的多人 HPE 专注于预测图像中每个人的 3D 关键点。这里我们将其分为两大类:自上而下的方法和自下而上的方法。这两个类别的工作流程与 2D 的工作流程类似,主要区别在于添加了深度信息,这引入了新的复杂性。图 15 和 16 分别表示 3D 自上而下和自下而上的方法。
-

-
图 15 多人 HPE 的 3D 自上而下方法图示。它首先使用人类检测方法检测每个个体,并且对于每个检测到的个体,应用 3D HPE 方法。输入图像来自 MPII 人体姿势数据集
-

-
图 16 多人 HPE 的 3D 自下而上方法图示。它首先检测所有关键点,然后将它们与相应的个体关联起来。输入图像来自 MPII 人体姿势数据集
-
Top-down approaches
-
类似于第 4.2.1,节中描述的 2D HPE 方法。3D多人HPE的自顶向下方法将首先检测图像中的所有个体,然后将HPE应用于每个检测到的人。 3D 设置的主要区别在于联合估计必须在三维空间而不是二维空间中进行。人员检测后,管道应用提升模型,该模型根据检测到的 2D 关节信息重建 3D 姿势。或者,如果在多视图或深度数据上进行训练,它可以应用直接回归模型。 LCRNet++ 是一种遵循定位-分类-回归(LCR)方法的两阶段方法,该方法实现了端到端训练,无需显式边界框检测。尽管没有边界框检测步骤,但该方法使用与 Faster R-CNN 类似的区域提议网络 (RPN) 来获取姿势提议。
-
对于每个建议区域,模型在框中放置多个锚点姿势以生成多个姿势建议。然后,分类分支通过分配分数来评估每个提议代表该区域中的人的程度,对这些姿势提议进行分类。然后网络回归器完善每个提案。它还在训练时使用合成数据来提高性能。 PandaNet 是另一种基于锚的方法,遵循单次方法。它一次性执行边界框检测和姿态回归。姿势感知锚点选择策略用于处理遮挡和重叠的人。
-
由于现有的多视图 3D HPE 非常耗时,Xu 等人提出了一种弱监督的 3D 多人 HPE 方法,该方法不需要外部相机参数。他们使用 HRNet 从每个视图检测每个人的姿势。跨视图匹配方法用于在不同视图中跟踪属于同一个人的关键点,人员重新识别(ReID)方法用于比较人在不同视图中的显示方式。为了细化从交叉视图匹配获得的初始姿势,他们使用了变压器编码器。然而,这种多阶段多视图HPE方法有一些局限性。由于它分两个步骤进行操作:交叉视图匹配和 SPPE,因此它要求每个主体至少出现在两个摄像机视图中,这限制了它们在严重遮挡条件下或快速运动期间的鲁棒性。其多级设计为每个组件的未来改进提供了灵活性;然而,这可能会导致模型复杂性较高,并增加跨视图匹配过程中信息丢失的风险。
Bottom-up approaches
-
正如第 4.2.2 节中所介绍的那样。自下而上的方法侧重于直接检测图像中存在的所有个体的人体关键点,然后将它们分组到各个个体。在 3D 中,这项任务变得更具挑战性,因为关节必须定位在 3D 空间中,通常需要多视图设置。由于单独的人员检测,自上而下的方法在计算上是昂贵的。相比之下,自下而上的方法受人数的影响较小,这降低了计算复杂度。
-
Mehta 等人提出了一种使用遮挡鲁棒姿态图 (ORPM) 的单次 3D HPE 方法。 ORPM 对身体关节位置进行编码,包括附近关节的信息,并使用分层方法对关键点进行分组。作为他们工作的一部分,他们引入了两个数据集:MuCo-3DHP(一个具有遮挡实例的合成数据集)和 MuPoTS-3D(一个真实世界的 3D 数据集,其中包含不同程度遮挡的人员)。即使在强烈的人际遮挡下,他们的方法也能很好地发挥作用,并且可以很好地推广到各种复杂的现实场景。
-
然而,在某些场景中,相同类型的关节(例如手腕)距离较近但不重叠,ORPM 地图可能会在不同人之间切换,从而导致预测不准确。失败的另一个原因通常是由于错误预测的 2D 关节而引起的,因为它可能会导致错误的 3D 预测。张等人提出了一种结合 2D 关节和深度数据来估计 2.5D 位姿的方法。所提出的相互自适应推理 (MAR) 框架将 2.5D 姿态估计与深度信息相结合。为了处理遮挡和深度模糊,自适应融合机制结合了视觉感知和几何推理。与领先的自上而下方法相比,该方法在 MuPoTS-3D 数据集上获得了有竞争力的结果。 Hardy 和 Kim 提出了一种无监督方法,重点是将 2D 姿势提升到共享 3D 坐标系。
-
该方法侧重于将检测到的 2D 位姿提升到共享 3D 坐标系并估计仰角。该方法在 CHI3D 数据集上进行了评估,该数据集是 3D 人类交互场景的基准。他们工作的主要限制是高度依赖于准确的 2D 姿势,尤其是骨盆关节,因为仰角预测依赖于该关节。
Video-based 3D single-person HPE
- 从视频中估计单个人的姿势重点是预测一个人在一系列帧中的 3D 关节位置。基于视频的方法使用空间和时间信息来估计和跟踪关节位置。图 17 展示了基于 3D 视频的 HPE 方法的时间线。表 6 总结了基于视频的 3D HPE 方法。
-

-
图 17 著名的基于视频的 3D HPE 方法的时间概述
-

-
表 6 基于 3D 视频的单人和多人姿势估计方法的总结。对于在多个数据集上评估的方法,相应的指标和性能值遵循相同的顺序。每个性能值都与其前面的指标相关联,而该指标又与以相同顺序列出的数据集相关联
-
Fully supervised methods
-
完全监督的方法依赖于包含图像及其 3D 注释的大型注释数据集。这些方法利用强大的架构来模拟姿势序列之间的空间和时间依赖性。 GAST-Net 使用图注意力机制从视频中捕获局部和全局依赖性。该方法使用扩张时间卷积来捕获跨帧的远程依赖性。直接连接的关节(一阶运动学)由图注意块建模。位于运动链末端的关节通常具有较大的误差,因为它们仅与一个关节连接。因此,为了改进这些关节的预测,作者使用了二阶运动学连接,它对运动链中关节之间的间接连接进行建模。
-
大多数早期方法都跨空间和时间域对所有身体关节进行建模。然而,不同的关节在不同的帧上有不同的运动轨迹,统一处理它们可能会降低准确性。为了解决这个问题,MixSTE 引入了基于变压器的序列到序列框架,该框架单独学习时间运动,将每个 2D 关节视为单独的标记。这有助于模型学习特定于关节的运动。 MixSTE 使用交替时空编码器架构,有助于长期推理并避免姿势过于平滑。该模型还包括有助于提高准确性的运动感知约束。
-
尽管像 MixSTE 这样的方法改进了时空建模,但它仍然依赖于增加输入帧的数量来实现更高的精度。这种趋势在最近基于 Transformer 的方法中很常见,以实现更高的精度,其中输入帧的数量从 81 帧增加到 351 帧。然而,即使帧数增加,性能改进也是有限的,在某个点之后通常小于 0.5 毫米。例如,MHFormer将输入从 243 帧扩展到 351 帧时,误差小幅减少了 0.2 毫米。
-
一个关键原因是当前的多帧模型以一种简单的方式将一个姿势映射到一个序列,这使得它们无法理解跨时间帧之间的复杂关系。为了解决这个问题,Liu 等人提出了 TCPFormer,它引入了隐式姿态代理来增强时间建模。这种设计支持每个姿势和序列之间的多个映射,这有助于模型捕获姿势序列内丰富的时间依赖性。因此,当输入帧数量增加时,TCPFormer 的性能优于以前的方法,具有一致的性能增益。
Weakly supervised methods
-
弱监督 3D HPE 专注于使用最少注释数据或真实标签训练的模型。为了减少对大型数据集的需求并降低注释过程的高成本,研究已经开始探索弱监督或半监督方法。最常见的策略是将受控环境中捕获的少量 3D 数据与在不同条件下捕获的大量 2D 数据相结合。这可以让模型在复杂的场景中表现良好,同时显着降低对昂贵的 3D 地面实况数据的依赖。 Zanfir 等人 提出了一种弱监督方法,可以从 2D 关键点和身体部位的语义分割中学习。该模型使用归一化流对复杂的运动学先验进行建模,从而实现更准确的姿态重建。主要贡献是具有归一化流的运动学潜在表示,这有助于比早期基于变分自动编码器(VAE)的方法更有效地建模合理的人体姿势。
-
它使用多级监督策略进行损失计算,结合了具有 3D 注释的数据集的完全监督损失、适用于具有 2D 注释的数据集的弱监督损失以及自监督损失。为了优化视频中的预测,该框架结合了预测姿势的时间一致性约束,提高了预测的准确性和稳定性。该方法的一个显着优点是它能够顺利地从完全监督训练转移到弱监督微调,从而增强其在各种数据集上的可扩展性。 TriPose 提出了一种弱监督方法来估计多视图视频中的姿势。它使用伪真实 3D 姿势,这些姿势是通过多视图 2D 关键点的三角测量生成的。 TriPose 使用这些伪 3D 姿势来训练循环提升网络 (RLN),将 2D 姿势提升为 3D。为了确保多个视图中 3D 姿势的一致性,它应用了多视图重投影损失。与之前的方法不同,TriPose 使用未经校准的多视图视频进行训练,并且可以在推理时预测单个视图,使其适用于复杂的场景。
-
尽管该策略减少了对真实 3D 注释的严重依赖,但它受到各种约束的影响,例如 2D 检测器的准确性和可靠的多视图数据的假设,这限制了在单视图或严重遮挡场景中的适用性。总体而言,虽然弱监督在降低注释成本方面提供了一个有前途且有价值的方向,但当前的方法通常会为了注释效率而牺牲泛化能力和鲁棒性,并且在无约束和现实环境中,性能仍然落后于完全监督的方法。
Unsupervised methods
-
大多数传统方法依赖于大量标记的 3D 数据。然而,收集它们的成本很高。为了解决这个问题,用于 3D 姿势估计的无监督 HPE 方法侧重于从没有标记的 3D 注释的视频中学习 3D 姿势预测。Luo 等人提出了一种无监督框架,可以在没有标记数据的情况下捕获时间依赖性。关注短期运动的传统方法无法对长期运动依赖性进行建模。为了应对这一挑战,该方法预测原子 3D 流而不是完整姿势。它们是小的运动单位,描述姿势如何在帧中变化。该网络使用编码器-解码器架构来预测视频帧对中的流序列。这有助于编码器学习时间依赖性和时空结构。该框架中纳入的原子 3D 流有助于模型捕获长期时间动态。
-
Kundu 等人 提出了一种直接表示 3D 关节坐标的几何感知瓶颈。该方法以 3D HPE 为目标,不依赖于 2D-3D 配对监督或多视图数据,因为依赖于基于 MoCap 的数据的完全监督方法可能会在复杂的现实场景中失败。为了实现这一目标,他们使用了:(1)正向运动学来构建 3D 骨架; (2) 相机投影将 3D 位姿重新投影为 2D; (3) 空间图转换,将关节位置和肢体连接转换为热图。尽管该方法有效地结合了肢体连接性和骨骼长度比率,但它仍然受到几何假设的准确性和精确的相机校准的限制。这使得它对噪声敏感,并降低了其在无约束和复杂场景中的鲁棒性。即使校准中的一个错误也可能在整个框架中传播,从而导致模型失败。总体而言,无监督方法有望降低注释成本,但它们经常面临训练不稳定、泛化有限以及依赖强几何先验等挑战,这阻碍了它们与监督或弱监督方法相比的竞争力。
bash
3D HPE
├── 全监督方法
│ └── 需要3D标注数据(MoCap)
├── 弱监督方法
│ └── 少量3D + 大量2D数据
└── 无监督方法
└── 仅2D数据 + 几何约束
-
全监督方法核心思想:使用Motion Capture系统采集的3D标注数据训练,优点是精度最高,直接学习3D映射。但是数据收集昂贵,实验室环境局限,泛化能力差。
-
弱监督方法核心思想 :结合少量3D数据 + 大量2D数据 + 重投影约束。关键技术:
-
重投影损失:3D → 2D投影与真实2D对比
-
对抗训练:判别器确保姿态合理性
-
几何约束:骨骼长度、关节角度
-
L r e p r o j = ∣ ∣ P ( R , t ) ∗ X 3 D − X 2 D ∣ ∣ 2 L_{reproj} = ||P(R,t) * X_3D - X_2D||² Lreproj=∣∣P(R,t)∗X3D−X2D∣∣2
-
减少3D数据依赖,更好的野外泛化,但是2D误差会传播,对抗训练不稳定
-
-
无监督方法核心思想 :仅使用2D数据 + 几何/解剖约束。关键技术:
- 多视图一致性:同一姿态不同视角
- 前向运动学:从根关节递推
- 骨骼约束:固定骨骼长度
- 无需3D标注,低成本。但是精度最低,深度歧义,遮挡敏感。
Video-based 3D multi-person HPE
- 视频中的多人 HPE 涉及跨帧检测视频中存在的多个人的 3D 姿势。由于人数不同,这项任务更加复杂,并且更容易出现遮挡和错误。运动的突然变化是另一个挑战,可能导致姿势不可靠。在这里,我们将它们分为自上而下和自下而上的方法。
Top-down approaches
-
与第4.2.1节和第5.2.1节中讨论的基于2D和3D图像的方法类似,基于3D视频的方法的自上而下方法涉及两步过程:首先,从每个帧检测个体,然后对每个检测到的个体应用3D HPE。然而,主要的区别在于使用时间动态来保持跨帧的一致性。为了实现这一点,许多方法使用时间卷积和基于transformer-based架构来平滑姿势轨迹随时间的变化。
-
Root-GAST-Net 是一种自上而下的方法,可从视频中检测 3D 关节位置。 YOLO-v3 用于检测每帧中的每个人。然后,基于 2D HPE 的 HRNet 应用于每个检测到的人。这些检测到的姿势被输入 GAST-Net,用于将 2D 关键点提升为 3D 根相对姿势。最后,根关节的深度由 RootNet 估计,这是一个深度估计器,用于将 3D 根相对姿势转换为最终 3D 姿势。然而,由于它涉及四种不同的架构(YOLOv3、HRNet、GAST-Net、RootNet),这增加了计算开销和推理延迟。
-
Park 等人针对野外场景的 MPPE 提出了一种 2D 到 3D 提升方法 POTR-3D 网络。此方法从视频中检测人物并对他们应用 2D HPE。他们提出了一种基于 Transformer 的 2D 到 3D 提升方法。该模型引入了三个 Transformer 模块:单人空间 Transformer (SPST),用于学习人的每个关节彼此之间的关系;人际空间Transformer (IPST),用于学习不同个体之间的关系;以及单关节时间Transformer (SJTT),以确保时间一致性。
-
作者通过在训练过程中模拟缺失的关节并在推理过程中过滤掉不可靠的预测来处理遮挡。他们使用不同的增强策略对所提出的模型进行了实验,并观察到基本策略(人物旋转和平移)给出了很好的结果。然而,他们提出的几何感知增强(地平面平移和旋转)仅提供了微小的改进。这可能是由于数据集的多样性有限。例如,在 MuPoTS-3D 中,大多数摄像机放置在靠近地面的位置,而在 CMU-Panoptic 数据集中,相同的配置用于训练和测试。因此,这些数据集不太适合全面评估新增强方法的泛化能力。
-
提出了使用深度相机的多视图深度 (MVD) HPE。人物和 2D 姿态检测与上述方法类似。该方法还与 2D 关键点一起提取 3D 外观特征。作者引入了深度约束三角测量算法来改进 3D HPE。该方法可以与未校准的相机一起使用,这使得更容易在不同环境中部署。所提出的深度引导相机姿态模块使用相机捕获的深度信息来估计相机位置。尽管使用深度相机的多视图 3D 姿态估计可提供更丰富的空间信息,但该方法对遮挡高度敏感,并且需要对主体进行严格的视线可见性。此外,多视图数据的实时融合需要较高的计算资源,这限制了其可扩展性。
Bottom-up approaches
- 正如前面章节中所描述的。 自下而上的方法侧重于检测所有关键点并将它们分组为单独的姿势。在基于视频的 3D 设置中,这会跨帧扩展,并合并附加的时间信息以保持联合分组随时间的一致性。 Shen 等人 提出了一种使用深度感知框架的视频 HPE 自下而上方法。他们使用修改后的 HRNet进行特征提取。他们没有使用相机位置和方向,而是将深度信息与 2D 姿势相结合来创建 3D 姿势。他们使用深度引导分组算法来根据正确的个体对关键点进行分组。
Integrated approaches
-
集成方法结合了自下而上和自上而下方法的优点。提出了一种基于自上而下和自下而上的集成网络来解决尺度变化和遮挡等挑战。他们使用图卷积网络(GCN)和时间卷积网络(TCN)来确保姿势的一致性。自下而上的分支预测所有个体的 3D 姿势。与仅评估单个姿势的其他判别器相比,这种方法引入了交互感知判别器,确保人们在靠近时进行交互的合理性。为了估计最终姿势,集成网络对两个分支的输出使用姿势匹配策略。然而,该框架继承了自上而下分支的一个主要缺点,因为它依赖于人类检测。如果此检测失败,自下而上的分支也会受到影响,因为它依赖于自上而下的分支热图。
-
此外,由于该框架由自上而下、自下而上以及集成网络和鉴别器组成,这增加了复杂性,这可能使其不适合实时应用。 IMPos-DNet 使用 3D 双卷积网络,集成了自下而上和自上而下的方法来处理遮挡和复杂环境。该方法首先使用边界框检测个人并估计检测到的人的 2D 姿势。然后将它们提升到 3D 空间。在自下而上的步骤中,检测关键点并将其分组为单独的姿势。然后,使用多视角最小化策略来组合这些并细化估计的姿势。
-
Top-down方法流程:
- 2D检测
- 2D→3D提升(Lifting)
- 深度估计(RootNet)
- 多阶段级联,误差累积,计算量大
-
Bottom-up方法,关键创新:
- ORPM:编码关节位置+邻近信息
- 层次化分组
-
集成方法复杂度高,不适合实时
Loss functions and evaluation metrics
-
损失函数和评估指标在 HPE 中的模型训练和性能评估中发挥着至关重要的作用。损失函数对比
损失函数 公式 适用场景 优点 缺点 MSE (1/N)Σ(H_gt - H_pred)² 热图法 梯度稳定 对异常值敏感 MAE/L1 (1/N)Σ|y_gt - y_pred| 回归法 鲁棒性 零点不可导 Huber 混合MSE/MAE 回归法 平衡两者 需调阈值δ JAE 关节角度约束 3D生物力学 物理合理性 需预定义角度范围
Loss functions
- 损失函数通过最小化关键点(预测)中的错误来帮助在训练过程中指导模型。他们测量预测输出和真实值之间的差异。该模型旨在减少整个训练过程中的损失。选择合适的损失函数取决于任务的目标、数据集和模型。不同的架构使用不同的损失函数。
Mean squared error (MSE)
-
MSE 是基于热图的 HPE 方法最常用的损失函数。基于热图的 HPE 架构,例如 HRNet ,使用 MSE 作为损失函数。它计算预测热图和实际热图之间的平均平方差。在梯度下降模型的训练过程中,MSE 比 MAE 获得了更高的准确度 。
-
M S E = 1 N ∑ i = 1 N ( H i g t − H i p r e d ) 2 , ( 1 ) MSE =\frac 1 N ∑^N_{i=1} ( H^{gt}_i − H^{pred}_i )^2, (1) MSE=N1i=1∑N(Higt−Hipred)2,(1)
-
其中 Hgt i 是关键点 i 的真实热图,Hpred i 是关键点 i 的预测热图,N 是关键点的总数。
-
Mean absolute error (MAE)
-
MAE,也称为 L1 损失,计算实际关键点和预测关键点之间的绝对差异。 L1损失的方程为:
-
L 1 = 1 N ∑ i = 1 N ∣ y i g t − y i p r e d ∣ , ( 2 ) L_1 = \frac1 N ∑^N_{i=1} |y^{gt}_i − y^{pred}_i |, (2) L1=N1i=1∑N∣yigt−yipred∣,(2)
-
其中 ygt i 是关键点 i 的真实值,ypred i 是关键点 i 的预测值,N 是关键点的总数。
-
-
MAE 通常用于基于回归的方法,其中模型直接预测关键点。由于它计算预测关键点和真实关键点之间的绝对差异,因此与 MSE 相比,MAE 提供了对异常值的鲁棒性,并减少了大误差的影响。
Huber loss
-
该损失函数结合了 MSE 和 MAE 的最佳特性,用于评估基于回归的方法。在数学上,它表示为,
-
L δ ( a ) = { 1 2 a 2 i f ∣ a ∣ ≤ δ δ ( ∣ a ∣ − 1 2 δ ) i f ∣ a ∣ > δ L_\delta (a)=\left\{\begin{matrix} \frac12a^2 & if~|a|\le \delta \\ \delta (|a|-\frac12\delta ) & if~|a|> \delta \end{matrix}\right. Lδ(a)={21a2δ(∣a∣−21δ)if ∣a∣≤δif ∣a∣>δ
-
其中a是预测值和真实值之间的差值,即a = ygt i − ypred i,δ是阈值参数,通常设置为1、2、3等。
-
Joint angle loss (JAE)
-
人体的运动是有一定范围限制的,比如我们的头部不能旋转超过360°。通过考虑这些限制,某些方法开始将它们集成到 HPE 中,以提高准确性并确保运动处于人体运动的自然限制范围内。 JAE 主要用于受生物力学启发的 3D HPE 方法,以预测准确的关键点并确保生成的姿势在解剖学上合理。 JAE 明确为人体关节设置约束或角度限制,确保预测落在生理上有效的解剖学范围内。这可以防止模型产生解剖学上不合理的肢体旋转。 Mao等人提出了一个计算每个角度的关节角度损失的方程,其表示如下:给定一组 L 个预定义关节角度 { a j } j = 1 L \{a_j\}^L_{j=1} {aj}j=1L 以及相应的角度 aj 的下限 (laj ) 和上限 (uaj )。
-
L a ) j = { ( a j ( y p r e d ) − l a j ) 2 i f a j ( x ^ ) < l a j ( a j ( y p r e d ) − u a j ) 2 i f a j ( x ^ ) > l a j 0 o t h e r w i s e L_{a)j}=\left\{\begin{matrix} (a_j(y^{pred})-l_{a_j})^2 & if~a_j(\hat x)<l_{a_j}\\ (a_j(y^{pred})-u_{a_j})^2 & if~a_j(\hat x)>l_{a_j}\\ 0 & otherwise \end{matrix}\right. La)j=⎩ ⎨ ⎧(aj(ypred)−laj)2(aj(ypred)−uaj)20if aj(x^)<lajif aj(x^)>lajotherwise
-
其中 aj (ypred) 是根据预测姿态 ypred 计算出的角度。最终的关节角度损失 La 是通过将所有角度上的各个损失相加得出的:
-
L a = ∑ j = 1 L L a j L_a=\sum^L_{j=1}L_{a_j} La=j=1∑LLaj
-
这种损失函数确保预测的关节角度保持在实际范围内,从而提高估计姿势的合理性。
-
-
损失函数选择指南
热图预测
坐标回归
异常值多
梯度稳定
平衡两者
3D姿态
需要
不需要
选择损失函数
任务类型?
MSE
L1 or L2?
MAE/L1
MSE/L2
Huber Loss
物理约束?
Joint Angle Loss
MPJPE
Evaluation metrics
-
评估指标用于衡量和比较 HPE 方法的预测准确性。它们确定模型做出与实际地面实况数据一致的预测的程度。它们可用于评估和比较不同活动类别、身体关节和受试者的预测,这反过来又有助于评估模型在各种场景中的性能。我们讨论 HPE 最常用的评估指标。
-
2D评估指标
指标 定义 适用数据集 特点 AP 平均精度 COCO 多阈值PR曲线下面积 mAP 平均AP MPII, PoseTrack 跨类别平均 PCK@α 正确关键点比例 MPII, LSP 距离<α×参考长度 PCKh@0.5 头长归一化 MPII 标准阈值 OKS 目标关键点相似度 COCO 尺度不变、关节权重 -
3D评估指标
指标 定义 特点 MPJPE 平均关节位置误差 标准3D指标(mm) PA-MPJPE Procrustes对齐后MPJPE 消除全局变换影响 MPJVE 平均关节速度误差 时序一致性 3DPCK 3D正确关键点比例 阈值判断 AUC PCK曲线下面积 综合性能
Average precision (AP)
-
AP 是最常用的度量 2D HPE。 AP 是使用设置在 0 和 1 之间的不同置信度阈值来计算的。AP、精度 § 和召回 ® 值的计算方式如式 6 和等式 7. 所示。 然后计算精确率-召回率曲线下的面积以获得 AP,如式8所示。
-
P = T P T P + F P , ( 6 ) R = T P T P + F N , ( 7 ) A P @ α = ∫ 0 1 P ( R ) d R , ( 8 ) P = \frac{TP}{TP + FP} ,(6)\\ R = \frac{TP}{TP + FN} ,(7)\\ AP@α =\int^1_0 P(R) dR, (8) P=TP+FPTP,(6)R=TP+FNTP,(7)AP@α=∫01P(R)dR,(8)
-
其中,α为阈值,P® dR表示精确率-召回率曲线下的面积,TP表示真阳性数(正确阳性样本数),FP表示假阳性数(将阴性样本识别为阳性样本),FN表示假阴性数(将阳性样本识别为阴性样本)。所有类别的平均精度称为平均精度 (mAP),它是 MPII 和 PoseTrack 数据集上最常用的指标。平均召回率 (AR) 是另一种常见指标,通过不同阈值的召回值计算得出。然后,计算其平均值以找到跨关键点的单个 AR 值。 AP 和 AR 都是针对每个关键点单独计算的,然后进行平均以找到整体性能指标。如果 AP 和 AR 值都较高,则模型会更准确且性能良好。
-
-
然而,AP 和 AR 最初用于物体检测任务,并没有明确捕获关节之间的结构关系。由于 AP 是根据高于阈值水平的正确预测的比例来测量的,因此正确检测大多数关节但错误放置一些关键关节的模型仍可能获得较高的 AP 分数。这对于安全关键型应用来说并不理想,因为检测髋部和肩部等关节(对于跌倒检测或人体工程学至关重要)的检测错误比检测手腕等不太重要的关节时的错误影响更大。它可用于对所有关节都同等对待的较大数据集进行基准测试,但对于更重要地对待特定关节的特定领域应用程序而言,它是不够的。
Percentage of correct parts (PCP)
-
PCP 在许多早期作品中用于评估 HPE 方法。它通过测量预测的关节位置与相应的地面真实位置之间的距离来测量肢体是否正确定位。它检查该距离是否在肢体长度的一小部分内(通常在 0.1 到 0.5 之间)。 PCP 通常称为 PCP@0.5。PCP 的计算公式为:
-
P C P = 1 L ∑ j = 1 L I ( ∣ l ^ j − l j ∣ l j ≤ τ ) , ( 9 ) PCP = \frac1 L ∑^L_{j=1} I (\frac{|\hat l_j − l_j |}{l_j} ≤ τ ), (9) PCP=L1j=1∑LI(lj∣l^j−lj∣≤τ),(9)
-
其中L表示肢体(身体部位)的总数,ˆlj表示肢体j的预测长度,τ是阈值(通常为0.5)。
-
-
当模型获得较高的 PCP 分数时,该模型的性能被认为更好。然而,这在最新的作品中很少使用,因为与长肢相比,它不公平地惩罚短肢。
Percentage of correct keypoints (PCK)
-
PCK 是通过测量预测关键点坐标与其阈值处的地面实况之间的欧几里德距离来计算的。与将肢体视为整体单位的 PCP 不同,PCK 单独评估每个关节,这使其对肢体长度的偏差较小。如果预测值和真实值在参考长度的指定百分比内(例如,PCKh - 头段长度),则认为预测是正确的。常用的阈值是头段长度的一半,表示为PCKh@0.5。计算 PCK 的方程 是:
-
P C K = 1 N ∑ i = 1 N I ( ∥ k ^ i − k i ∥ d ≤ τ ) , ( 10 ) PCK = \frac1 N ∑^{N}_{i=1} I (\frac{∥\hat k_i − k_i∥}d ≤ τ ), (10) PCK=N1i=1∑NI(d∥k^i−ki∥≤τ),(10)
-
其中N表示关键点的总数,^ ki表示第i个关键点的预测位置,而ki表示同一关键点的地面真实位置。预测关键点和真实关键点之间的欧几里得距离用 ∥ˆ ki − ki∥ 表示。参考长度 d 通常选择为头部尺寸(MPII 的 PCKh)或边界框尺寸,具体取决于所使用的数据集。阈值 τ 是参考长度的一部分,用于确定关键点预测是否正确。最后,I(·)是一个指示函数,如果满足内部条件(即距离在阈值内),则返回1,否则返回0。
-
-
PCK 有几个限制。首先,它高度依赖于阈值 τ ,因此结果可能会根据 τ 的值而显着变化。这使得跨模型比较不可靠,除非 τ 的值是标准化的。另一个限制来自于 PCK 对所使用的参考长度的依赖,这可能会引入偏差。例如,一些方法使用边界框的高度作为参考长度,这可能会引入偏差;举起手臂的人的边界框高度将大于手臂放低的人的边界框高度。由于距离是按参考长度的一部分计算的,因此较大的边界框会导致较大的参考长度。这种人为的通货膨胀可能会让模型产生更大的误差,使得评估不那么严格。为了解决这个问题,Sapp 和 Taskar 使用躯干高度作为参考长度,这对关节不太敏感。然而,在平面外旋转的情况下,躯干高度可能会降低,从而使归一化变得不可靠。
Intersection over union (IoU)
-
IoU 通常用于衡量边界框预测的准确性。它通过计算真实边界框和预测边界框的交集与并集的比率来评估它们的相似性。
-
I o U = A r e a o f O v e r l a p A r e a o f U n i o n , ( 11 ) IoU =\frac{Area~ of~ Overlap}{Area~ of ~Union}, (11) IoU=Area of UnionArea of Overlap,(11)
-
虽然 IoU 可以预测边界框精度,但它在应用于姿态估计时存在局限性。它预测一个人周围的盒子,并忽略单个关节和身体结构。在拥挤的场景中,边界框可能会重叠很多。即使 IoU 分数相同的人也可能有不同的姿势,但 IoU 不会分辨出差异。因此,具有相同 IoU 分数的两个 HPE 模型可以给出具有不同质量的姿势。
-
Object keypoint similarity (OKS)
-
OKS 随 Microsoft COCO(上下文中的通用对象)数据集引入将 IoU 的思想扩展到关键点检测。该指标通过考虑预测值和真实值之间的距离来衡量预测值和真实值之间的相似性。它在基于回归的方法中被广泛使用,其中模型直接输出关键点坐标。然而,它不能直接应用于基于热图的方法,因为热图是概率图。在这种情况下,当模型回归关键点坐标时,将应用 OKS。
-
O K S = ∑ i = 1 N e x p ( − ∥ k i − k ^ i ∥ 2 2 2 s 2 κ i 2 ) ⋅ I ( v i > 0 ) ∑ i = 1 N I ( v i > 0 ) , ( 12 ) OKS =\frac{∑^N_{i=1} exp ( −\frac{∥k_i−\hat k_i∥^2_2}{2s^2κ^2_i} ) · I(v_i > 0)}{∑^N_{i=1}I(v_i > 0)}, (12) OKS=∑i=1NI(vi>0)∑i=1Nexp(−2s2κi2∥ki−k^i∥22)⋅I(vi>0),(12)
-
在此方程中,N 是关键点的总数,而 ki 和 ˆ ki 分别表示第 i 个关键点的真实位置和预测位置。 s 是对象比例,κi 是特定于关键点的常数(权重)。可见性标志 vi 指示关键点的可见性,其中 vi > 0 表示关键点可见。
-
-
OKS 的主要优点是引入了特定于关键点的常量。它是尺度不变的,并对每个关节应用不同的权重。例如,某些关键点(如眼睛和嘴唇)上的小错误会比人体其他关节(如臀部或肩膀)受到更严重的惩罚。然而,一个显着的缺点是,权重因子是由 COCO 的作者根据经验选择的,这可能会增加跨数据集应用中的偏差。
Mean per joint position error (MPJPE)
-
MPJPE 主要用于 3D HPE 中的性能评估。它计算预测值和地面实况值之间的平均欧几里德距离。MPJPE 的计算公式为
-
M P J P E ( t , R ) = 1 N R ∑ k = 1 N R ∥ k ^ i − k i ∥ 2 , ( 13 ) MPJPE(t, R) =\frac1{N_R} ∑^{N_R}_{k=1} ∥\hat k_i − k_i∥_2, (13) MPJPE(t,R)=NR1k=1∑NR∥k^i−ki∥2,(13)
-
其中 t 和 R 分别代表框架和相应的骨架。 ˆ ki 是关键点位置,ki 是对应的ground Truth 位置。 NR表示关节数量。
-
-
PA-MPJPE(Procrustes Aligned Mean Per Joint Position Error)是通过在预测姿势和地面真实姿势之间应用刚性对齐来计算的。这种对齐通过使用 Procrustes 分析(应用旋转、平移和缩放)来最小化预测值和真实值之间的距离。这解决了由于未对准而导致的错误,并有助于独立于全局变化来评估预测 。然而,它仍然没有考虑时间平滑性。如果跨帧姿势不稳定,MPJPE 的值可能会很好。这是因为,如果各个帧中的错误较低,即使帧之间的运动不自然,它也会实现较低的 MPJPE。虽然 MPJPE 和 PA-MPJPE 侧重于关节的空间精度,但平均每关节速度误差 (MPJVE) 是另一个衡量帧间姿势时间一致性的指标。尽管 MPJPE 是主要指标,但 MPJVE 在基于视频的 HPE 任务和运动分析任务中至关重要,以确保一致且平稳的运动。
Applications
- 作为一项关键的计算机视觉任务,HPE 在各个领域都有广泛的应用。尽管不同的 HPE 技术都表现出了出色的性能,但它们的适用性因场景而异,例如单人与多人、数据(例如图像或视频)以及 2D 与 3D 姿态估计。
Healthcare and fitness
-
HPE 一直是医疗保健领域的重要工具,特别是在监控运动和姿势方面。它越来越多地用于老年护理、姿势矫正、瑜伽和神经肌肉康复。基于视觉的 HPE 方法有助于直接从图像、视频或实时分析身体姿势和动作。与需要物理连接到身体的方法不同,例如可穿戴传感器。这些可穿戴设备可能会让人感到不舒服,而且人们可能无法佩戴它们。对于患有痴呆症的老年人来说尤其如此,他们可能会因身体或认知状况而感到不适。相比之下,基于视觉的方法不会影响这些人,因为他们是被动操作的,这使他们成为老年人护理和康复的理想选择。多项调查探讨了 HPE 在医疗保健和健身/培训援助方面的应用。
-
Nahin 等人 提出了一种监测卧床患者姿势的方法。这种情况下的主要问题是患者可能被遮盖(使用毯子)或不遮盖。他们没有使用普通的 RGB 相机图像,而是使用红外图像 (IR),充分利用了隐私和弱光条件下性能的优势。获取覆盖的红外图像并对其进行标记非常耗时。因此,他们使用了两种增强技术。第一个涉及在未覆盖的红外图像上人工模拟毯子,这是通过分析当人被毯子覆盖时像素值如何变化来完成的。
-
后一种方法使用 GAN 从未覆盖的图像创建合成的覆盖图像。他们在常见的 RGB 数据集(如 MPII)上训练了模型,然后在红外数据上对其进行了微调。所提出的模型优于 Stacked Hourglass 和 HRNet 等 SOTA 方法,AUC 分别提高了 4.8% 和 6.0%。 Hernández 等人 进行了一项研究,比较了康复环境中两种流行的 CNN 管道 OpenPose 和 Detectron2 。他们融合了两个正交放置的 Kinect v2 相机的 3D 骨架。该方法比较涉及上肢的康复练习中肘部和肩部之间的角度。
-
HPE 也已成为瑜伽特定应用的基石。 SEPAM_HRNet 是一种基于 HRNet 的瑜伽姿势估计架构,其中包含挤压和激励和像素注意掩模 (SEPAM) 模块。
Sports
-
深度学习和计算机视觉的进步让HPE 与在体育领域大显身手。它在分析运动员表现、预防伤害和评估运动方面发挥着关键作用。还有更先进的方法可以评估人体的生物力学,从而可以更深入地了解每项活动中的身体运动。由于滑雪、滑冰或短跑等运动中的快速运动以及复杂的动作,基于视觉的系统通常很难可靠地跟踪和估计姿势。 AI Coach 方法采用多阶段方法,首先是人体检测和跟踪模块,然后是验证模块。如果普遍的预测是错误的,那么跟踪模块很可能会失败。
-
为了解决这个问题,引入了一个验证模块来检测目标人和背景的概率。为了有效捕获空间和时间信息,该方法引入了一个关系模块,用于提取姿势相关特征并细化关键点位置。然后使用支持向量机 (SVM) 评估检测到的关键点以检测"不良姿势"。Ludwig 等人 提出了一种使用两个自监督管道进行运动姿势估计的方法。
- 伪标签选择部分为所有未标记的帧生成候选关键点图。
- 平均教师一致性部分,首先使用预训练的权重初始化教师和学生骨干网。教师模型使用干净图像进行训练,学生模型使用增强图像进行训练。
-
该方法仅使用 50 个 2D 标记姿势和额外的未标记视频即可获得 88.6% 的 PCK。 HRPose 是一种新方法,结合使用 HRNet 和 SinglePose 来提高体育比赛中姿势估计的准确性。在此方法中,HRNet 主干在整个网络中保持高分辨率表示,用于特征提取,而 SinglePose 用于确保低延迟的精确定位。
-
除了跟踪和验证运动员的表现外,HPE 方法还用于协助体育裁判。例如,Dey 等人 提出了一种轻量级的基于注意力的深度卷积门控循环单元 (DC-GRU) 方法来准确检测和分类板球比赛中的裁判信号。作者还引入了一个新的数据集板球裁判动作视频数据集(CUAVd),用于检测板球比赛中的裁判姿势。然而,该数据集规模较小,包含 1,179 个视频,并且多样性有限,这可能会限制其对具有不同摄像机角度和快速运动的现实板球比赛的推广。
Monitoring of infants
-
姿势估计在该领域最重要的用途之一是监控婴儿的安全,特别是降低婴儿猝死综合症 (SIDS) 的风险。研究表明,限制气流的睡眠姿势(尤其是趴着)是导致 SIDS 的原因之一。姿势估计方法可以跟踪婴儿的运动,并在婴儿滚动到不安全的位置时向护理人员发出警报。 Soualmi 等人 为新生儿科住院的早产儿提出了 3D 姿势估计框架。他们引入了 AGMA 数据集,该数据集由遵循一般运动评估 (GMA) 指南的图像组成。带注释的数据集由胎龄小于 33 周的婴儿的图像组成。作者微调了各种 SOTA HPE 方法,例如 HRNet、HigherHRNet 和 DarkPose,用于 2D 姿态估计。然后,三角测量方法检测 2D 姿势以获得 3D 姿势。
-
了解婴儿的非语言交流对于护理人员来说至关重要。Care2Vec 是一种使用自动编码器对身体残疾儿童的自我护理问题进行分类的方法。该方法使用基于世界卫生组织 (WHO) 开发的概念框架的数据集。大多数以婴儿为中心的研究主要旨在评估神经运动发育。 BabyPose 是一种旨在解释婴儿非语言交流的方法。它探索婴儿所做的动作或动作背后的不同含义,旨在通过基于 2D 视频的姿势估计来解释他们的肢体语言。
-
作者创建了一个数据集,其中包含从 156 个视频中收集的伸展、踢腿等动作。例如,"揉眼睛"等动作表示宝宝困了,而"吮吸手指"则表示饥饿。这些方法显然有潜力支持新父母理解孩子的非语言交流。
Human-robot interaction
-
HPE 在人机交互 (HRI) 中发挥着至关重要的作用,可在工厂、实验室或家庭等共享环境中实现人与机器人之间安全有效的协作。 Garcia-Salguero 等人 提出了一种用于用户定位的 3D HPE 方法,使用放置在移动机器人倾斜头上的宽视场 (FoV) RGB 相机。与使用基于 RGB-D 的系统的常见方法不同,这些方法会受到窄 FoV 和对照明条件敏感的影响,作者研究了宽 FoV RGB 相机的功能。所提出的系统使用两阶段管道:首先,它使用 OpenPose 检测人体姿势,然后使用更快的单视图方法或多视图方法(通过倾斜相机获得多个视图)来重建它们。尽管基于 RGB 的方法已经取得了显着的进步,但许多 HRI 系统仍然依赖于 HPE 的深度摄像头。然而,这些基于深度的系统由于对红外探测范围的依赖而存在一些局限性,限制了它们在不同距离场景中的灵活性。
-
为了解决这个问题,Cheng 等人 提出了另一种 HPE 和运动意图识别方法,该方法使用光学相机代替深度相机。他们构建了一个自定义数据集,其中包含五个不同类别的人类动作,这些动作对应于特定的机器人动作,以训练意图识别网络。意图识别模型基于LSTM网络,处理联合数据并提取有意义的联合信息。通过分析这些时间特征,模型可以预测用户的意图,使机器人能够做出相应的反应。解决这个问题的另一种方法是使用立体相机,如果相机基线已知,则可以产生真实的深度。 Wu 和 Sattar 提出了一种使用立体相机的 3D HPE 方法来应对水下机器人的挑战。他们使用基于 Transformer 的编码器主干来融合立体声对,并使用两个解码器来预测每个关节的 2D 关键点和关节差异。作者还介绍了一个新的数据集 DiverPose,它包含使用安装在水下设备上的 Zed-Mini 立体相机从水下收集的 3,000 对立体图像。该方法不需要 3D 地面实况进行训练,与之前的方法相比获得了显着的改进。
Autonomous driving systems
-
自动驾驶是一个新兴领域,它可以从HPE 与的集成中受益匪浅,从而增强系统响应人类行为的能力。 HPE 允许自动驾驶车辆 (AV) 检测人类姿势,以便它能够解释更复杂的人类行为,而不仅仅是检测人类。由于缺乏密集的深度图和稀疏的 LiDAR 点,适用于室内应用的基于 RGB 和 RGB-D 的方法在长距离场景中会失败 。 Cheng 等人通过提出一种集成单目图像和 LiDAR 的弱监督多模态框架来解决这一差距。该架构由两个分支组成:一个具有模态融合的相机网络,用于预测 2D 关键点;一个回归分支,用于预测相应 2D 关键点的 3D 坐标。结果表明,在 3D 精度方面,融合技术比仅使用 RGB 的相对增益高 22%,比仅使用 LiDAR 的相对增益高 6%。
-
监控驾驶员的行为是自动驾驶汽车的另一个重要挑战。了解和监控驾驶员的状态,例如警觉性和分心程度,对于确保驾驶员和行人的安全至关重要。 Huo 等人 提出了一种检测自动驾驶汽车中驾驶员各种行为的方法。他们的方法使用 MediaPipe 用于 2D HPE,然后使用提出的 Pose-GTFNet(一种时间变换器加上基于 GCN 的空间架构)将检测到的关键点提升到 3D。然后将获得的 3D 姿态输入轻量级 Beh-MSFNet 以识别驾驶员的行为。所提出的方法在 Drive&Act 和 Driver-Skeleton 驾驶员行为数据集上获得了 SOTA 性能。
-
总体而言,尽管 HPE 系统的应用在各个领域有所不同,但它们都存在一些持续出现的常见挑战,在设计和部署新的 HPE 系统时应予以考虑。由于许多数据集是针对特定用例设计的,并且是在受控实验室环境中收集的,或者记录的受试者属于有限的人口群体,因此对其进行训练的模型通常无法推广到其他类别。这仍然是广泛部署 HPE 系统时的一个主要障碍。
-
遮挡和视角变化仍然是基于视觉的 HPE 面临的另一个主要挑战 。当视觉线索缺失时,身体关节定位变得困难。同样,非传统的摄像机视图,例如拥挤场景中的俯视监视角度和侧视图,可能会改变对身体关键点的正确检测,从而导致准确性降低。重要的是,这种限制发生在仅视觉方法中。当添加深度传感器或惯性测量单元 (IMU) 等额外传感器时,可以缓解这个问题,因为这些模式可以提供不受视觉影响的额外提示。隐私问题存在于多个应用程序中,尤其是在工作场所监控和医疗保健等领域。这些挑战共同强调,HPE 研究不仅应该关注基准准确性,还应该解决这些挑战。
Emerging paradigms in HPE
- HPE 领域现在正在进入一个新时代,超越传统方法。为了解决各种问题(例如现实场景中的问题)并改进 HPE 结果,最近的研究已转向生成建模和跨模式推理。虽然传统方法在各种任务上取得了良好的进展,但它们往往难以很好地推广到复杂的场景。使用扩散模型生成多种姿势假设的新兴 HPE 模型、用于语义姿势推理的视觉语言模型 (VLM) 以及结合各种输入模态的多模态 HPE 代表了该领域的重要进步。
Diffusion-based pose estimation
-
扩散模型最近作为姿态估计的生成方法开始受到关注。与通过回归或热图预测来预测身体关节位置的传统方法不同,基于扩散的框架遵循迭代去噪过程来获得正确的姿势。在此过程中,它们从随机噪声开始,使它们能够更好地表示可能存在多种姿势配置的 2D 到 3D 提升的不确定性。由于其概率性质,它们比其他确定性模型具有更高的准确性,并且在具有挑战性的现实场景中也获得了更好的准确性。
-
Li 和 Lee 提出了一种早期概率方法,使用混合密度网络(MDN)来建模姿势假设。他们认为 2D 到 3D 提升是一个多模态问题,因为由于深度模糊,单个 2D 姿势可以对应于各种 3D 姿势。他们将后验分布建模为高斯混合,其中高斯核的均值代表候选 3D 姿态,而方差捕获每个假设的不确定性。一个主要限制是假设的数量必须提前确定。相比之下,Sharma 等人 提出了一种基于条件变分自动编码器 (CVAE) 的方法,旨在在观察到的 2D 关键点上生成不同的 3D 姿势样本。他们的 MultiPoseNet 通过从潜在分布中采样来解决歧义,生成一组不同的候选姿势。他们使用序数排序对更符合人体结构的样本进行排序,并将它们聚合以生成 3D 姿势。然而,它需要相对复杂的架构,并且生成的假设缺乏多样性,因为 2D 热图过于简化,即使在高度不确定性下也会导致相似的姿势。
-
为了解决这些问题,Holmquist 和 Wandt 引入了 DiffPose,这是一种条件扩散模型,用于从单个 2D 输入生成多个 3D 姿态预测。他们的目标不是过度简化 2D 热图,而是生成近似完整后验分布的准确 3D 姿势。他们的方法受到去噪扩散概率模型 (DDPM)) 的启发,因为它们的训练稳定性和生成不同预测的能力。然而,DiffPose 的计算量仍然很大,并且由于推理时数千个去噪步骤而存在延迟。 D3DP 是另一种基于扩散的模型,它也可以预测多个 3D 候选姿势。与依赖于姿势级别平均的 DiffPose 不同,D3DP 引入了一种新颖的聚合方法,即联合级别姿势多重聚合 (JPMA),它在联合级别进行聚合,从而实现更准确的预测。
-
它通过强大的增强策略增强了其方法的稳健性。 D3DP还在推理过程中使用去噪扩散隐式模型(DDIM),这使得它能够减少去噪步骤的数量,从而使模型在保持准确性的同时更加高效。对于时空推理,它使用 MixSTE,这是一种基于 Transformer 的骨干网,因其能够很好地捕获空间和时间依赖性而闻名。另一种方法 FinePOSE 通过显式集成提示驱动调节建立在 D3DP 之上。集成细粒度提示可通过与零件、动作和运动学相关的提示来指导模型,从而增强去噪过程。这使得它即使在复杂的场景中也能捕获身体配置并实现高性能。
-
尽管取得了这些进步,基于扩散的方法仍然面临一些局限性。尽管使用基于 DDIM 的采样减少了去噪步骤的数量,但这些模型的计算量仍然很大,这使得边缘设备上的实时推理具有挑战性。尽管基于扩散的方法擅长预测不同的姿势,但正确姿势的选择,特别是在模糊场景中仍然是一个开放的挑战。尽管如此,基于扩散的模型的进展凸显了基于扩散的方法如何从建模不确定性发展到实现高效率,使它们成为未来 HPE 系统非常有前途的方向。
Large language models
-
大型语言模型(LLM)和视觉语言模型(VLM)的兴起为跨模态推理引入了有希望的方向。通过将图像和语言融合到联合嵌入空间中,诸如 CLIP 之类的 VLM 将视觉数据与语义知识连接起来。这种跨模式对齐在现实场景中非常有用,特别是当视觉信息不完整或不明确时,例如姿势估计中的遮挡。与仅依赖视觉提示的传统方法不同,VLM 利用自然语言提示来改进预测。法学硕士可以提供宝贵的知识来指导姿态估计,尤其是在复杂或模糊的场景中。由于其优点,LLM 和 VLM 现在在姿势估计、运动分析等各种应用中得到越来越多的探索。
-
LocLLM 是第一个基于 LLM 的关键点定位框架,它将姿势估计建模为视觉语言问答任务。传统方法使用 CNN 或视觉 Transformer 来预测关键点热图或根据从训练数据中学习到的关键点先验直接回归关键点坐标,这限制了其对未见过场景的泛化。为了克服这些限制并提高模型的泛化能力,LocLLM 采用了一种将文本描述与视觉提示相结合的新颖方法。该架构由用于从输入中提取视觉特征的视觉编码器和将这些特征转换为标记的投影层组成。然后将这些图像标记与文本标记组合。
-
实验表明,LocLLM 在 COCO、MPII 和 Human3.6M 等基准数据集上实现了与 SOTA 方法相当或更高的精度。但是,它使用简单的线性投影层将视觉特征与法学硕士的文本特征进行映射。这可能会限制模型捕获图像特征和文本描述中存在的语义线索之间复杂的非线性关系的能力。为了解决这个问题,Zhang 等人引入了一种基于轻量级非线性多层感知器(MLP)的视觉语言连接器,以增强模型融合视觉线索和语义信息的能力。这种架构变化提高了定位精度。
-
VLM 在分割和目标检测等任务中取得了显着的成功,然而,将其扩展到估计面临着诸如遮挡和变化的相机视角等挑战。各种 VLM 在语义同质性的假设下有效工作(例如,区分"猫"和"狗");然而姿势估计需要几何异质性(例如,"直立"与"向前弯曲")。 CLAMP 等方法通过使用语言提示来解决这一挑战。然而,该设计仅关注关键点定位,而没有充分利用 VLM 的丰富姿势先验。 PosePro 利用自动提示学习策略,该策略被重新表述为姿势图优化任务。在该方法中,对提示进行了优化,以减少关键点的文字描述与相应视觉特征之间的差距。这有助于 PosePro 对完整的身体配置进行建模,而不仅仅是预测单个关键点。这增强了其在遮挡和复杂场景下的鲁棒性。
-
总体而言,将 LLM 和 VLM 集成到姿态估计中是一种新兴范例。它将姿态估计任务扩展到仅视觉框架之外,为跨模型泛化和提高鲁棒性提供了新的机会。
Multi-modal HPE
-
将感官数据与视觉数据等附加线索融合已成为实现稳健姿势估计的新兴方法。虽然相机难以捕获正确和完整的视觉信息,但深度传感器(用于深度模糊)和惯性测量单元 (IMU)(用于处理运动模糊)等补充传感器有助于改进姿势预测。早期的工作重点是用于室内 HPE 应用的 RGB-D 传感器。 Ying 和Zhao 提出了一种 RGB-D 融合框架,该框架将 RGB 图像的 2D 热图与深度信息融合以构建点云表示。他们使用密集预测头来获得(i)紧密度分数,它确定该点与特定身体关节的距离,以及(ii)将每个点指向目标位置的偏移向量。即使点云有噪声,这种双重策略也使模型更加稳健。然而,深度传感器适用于受控、有限范围的室内应用,通常不适合远距离的室外场景。
-
为了解决这些问题,Zheng 等人提出了一种多模态 HPE 框架,将 RGB 图像与 LiDAR 点云融合起来,用于自动驾驶任务。他们将 2D 关键点热图与 LiDAR 点云融合。该模型的性能优于仅使用相机和仅使用激光雷达的基线,凸显了复杂场景中跨模态集成的优势。 HPE 在医疗保健应用中的一个常见挑战是床上姿势估计。此处,由于低光或黑暗环境以及织物造成的遮挡,可能会妨碍准确的姿势检测。为了解决传统方法中与照明相关的问题,Zhu et al 引入了一种多模型融合方法,该方法使用热像仪捕获身体热量特征,并使用深度传感器获取点云。该架构使用探测器从热帧中分割人体轮廓。
-
即使在低照度条件下,热像仪也有助于检测 2D 接头。Nahin 等人 提出了一种端到端管道,用于通过红外图像监控卧床患者的姿势。作者没有使用普通的 RGB 相机图像,而是使用了红外图像,这有助于在弱光条件下保护隐私。由于收集和注释覆盖的红外图像非常耗时,因此他们使用了两种增强技术。第一个涉及在未覆盖的红外图像上人工模拟毯子,这是通过分析当人被毯子覆盖时像素值如何变化来完成的。后一种方法使用 GAN 从未覆盖的图像创建合成的覆盖图像。该模型最初是在 MPII 等常见 RGB 数据集上进行训练,在适应红外数据时提供了改进的性能。
-
尽管取得了这些进步,多模态系统仍面临与传感器校准和高部署成本相关的挑战。此外,这些方法引入了更高的模型复杂性和计算开销。由于不同的模式在不同的条件下发挥作用,这可能会在融合来自它们的数据时引起问题。
Challenges and future research directions
-
尽管 HPE 最近在使用深度学习方面取得了所有进展,但由于 HPE 任务的复杂性,仍然存在挑战。在本节中,我们讨论 HPE 面临的挑战和未来的研究方向。
挑战 描述 当前解决方案 未来方向 遮挡 自遮挡/他遮挡导致关节不可见 时序一致性、注意力机制 生物力学约束、多模态 数据稀缺 3D标注昂贵 合成数据、弱监督 数字孪生、物理仿真 隐私 视觉数据敏感 红外、匿名化 差分隐私、边缘计算 泛化 域迁移、人群偏差 域适应、数据增强 视角不变表示 实时性 复杂模型延迟高 轻量级网络 神经架构搜索、硬件加速 鲁棒性 低光、模糊、拥挤 特定场景数据集 统一框架、扩散模型
Occlusion and biomechanical constraints
-
人体关节的精确定位是 HPE 面临的主要挑战之一。当人体的某些部分隐藏在物体或人后面时,就会发生遮挡。它可以是自遮挡,这是由于肢体重叠造成的,也可以是人/物体遮挡,这可能是由于拥挤场景的干扰或外部物体部分隐藏了身体的某些部位造成的。遮挡可以是静态的或动态的。当人被静止物体部分遮挡时,就会发生静态遮挡,而动态遮挡则可能是由移动的物体或人引起的。照明条件较差或拍摄角度极端的场景可能会使身体部位不可见或部分隐藏。由于大多数深度学习模型依赖于视觉线索,因此当缺少这些线索时,HPE 模型的性能可能会显着下降。
-
尽管已经提出了一些方法来解决这个问题,但遮挡的鲁棒处理仍然是一个开放的挑战。在基于视频的 HPE 中,动态遮挡会破坏时间一致性,从而降低跟踪精度。一些方法利用时间一致性来随着时间的推移恢复被遮挡的姿势。然而,在长时间的遮挡中,依赖附近视觉线索和先前帧的运动序列的能力变得不太有效。
-
未来的研究方向可以探索灰盒方法,将生物力学和运动学与学习的姿势先验融合在一起,使模型能够预测长时间遮挡期间物理上合理的姿势。当多个身体关节被遮挡或遮挡时间较长时,纯数据驱动的 HPE 方法通常会遇到困难,因为它们缺乏足够的视觉信息。未来的 HPE 系统可以不再依赖视觉提示,而是将人体运动的各种生物力学约束(例如肢体长度限制、人体对称性、关节角度限制和运动链规则)纳入预测过程。
-
当有关关节的视觉信息丢失时,纯粹依赖于视觉信息的方法可能会产生解剖学上不可信的预测。在这种情况下,生物力学提供运动学信息,使模型能够根据可用的视觉信息和生物力学来识别身体如何移动或不可以移动。
-
传统上,基于动捕的系统一直是获得生物力学上准确的人体姿势的基准。这些系统使用多个校准摄像机来跟踪放置在人体上的反射标记,并且通常在受控实验室环境中捕获。然后使用 OpenSim 等生物力学优化工具处理生成的轨迹,以获得准确的运动学数据。
-
然而,这是昂贵且耗时的,并且对于在大规模非实验室环境中部署来说是不切实际的。单目 HPE 的最新进展已转向使用 SMPL 等参数化人体模型。虽然这些模型增强了姿势预测,但它们的简化表示缺乏生物力学准确性,这限制了它们在医疗保健、运动和人体工程学等领域的适用性。因此,未来的研究方向应该转向将先验姿势与生物力学相结合,即使某些关节被遮挡,也可以在遮挡下生成解剖学上合理的姿势。同时,当仅靠视觉不足时,惯性传感器和深度信息或声学信号等多模态信息可以提供有价值的信息,从而促进稳健、生物力学精确的 HPE 方法。
Data scarcity
-
基于深度学习的 HPE 方法严重依赖大量数据进行有效训练。创建具有准确注释的高质量数据需要昂贵的设置和标签成本。虽然 2D 数据集提供了数百万张图像,但可用的 3D 数据集却很少。高质量 3D 姿态数据的收集既昂贵又困难,尤其是在野外场景中。因此,大多数现有 3D 数据集都是在受控的室内实验室环境中收集的,并且多样性有限。克服这个问题的一个有希望的方向是使用合成数据,研究人员已经开始探索这一点。使用模拟环境以高效、快速的方式创建大规模、多样化的 3D 姿态数据集提出了一个有前途的研究方向。最近的合成姿势数据集,如 SynBody 突出了合成数据的潜力和未来范围。
-
另一个有前途的未来方向是创建数字孪生,它们是虚拟人类,遵循人体运动的基本物理定律和生物力学来复制真实个体的特征。与主要关注 SMPL 等参数模型的传统合成数据集不同,这些模型主要关注人体的解剖学精确表示和运动,以及身高、体重和身体比例等特定于人的属性。这些模型可以包含额外的数据,例如地面反作用力和肌肉激活,以及身体关键点和轨迹。此外,一个有前途的方向是开发结合多种模态的多模态数据集,例如 RGB、深度、运动线索和传感器数据,这将有助于 HPE 系统学习不同的跨模型表示并提高噪声场景下的鲁棒性。数字孪生和多模态数据集为多样化且物理有效的训练数据提供了方向,可以显着提高未来 HPE 系统的稳健性。
Privacy concerns in HPE
-
HPE 在许多应用中发挥着重要作用;然而,HPE 在医疗保健、康复和工作空间监控等敏感领域的应用引起了对个人隐私的担忧。大多数 HPE 方法依赖于图像或视频,这可能会导致敏感的个人信息与姿势数据一起被记录。收集的姿势数据的手动注释包括人工注释者,这可能会导致数据泄露的风险增加。许多数据集使用第三方服务进行注释,其中数据可以通过不安全的网络传输。
-
增强隐私的传统方法需要集成昂贵的传感器或额外的数据。因此,在隐私和高性能之间找到平衡点具有挑战性。一些方法使用匿名技术,例如删除或模糊面部特征,以最大限度地减少可识别信息。然而,过度匿名化可能会导致姿势准确性下降。 Huang 等人 提出了一种增强隐私的 HPE 框架,该框架使用条件生成对抗网络 (cGAN) 来掩盖敏感的个人信息 (SPI),例如个人身份。他们还实现了恢复模块,该模块允许恢复敏感的个人信息,并且仅允许由授权人员进行恢复。
-
与基线相比,他们的方法实现了 10% 高的 AP,这仅在匿名数据上进行了微调。 Sivangi 等人的另一种方法实现了投影差分隐私随机梯度下降(PDP-SGD),该方法通过将噪声注入梯度并将其投影到低维子空间中来提供隐私,从而减少效用损失。虽然这些方法提供了有价值的见解,但它们仅限于 2D 设置,并且忽略了可扩展性和公平性方面更广泛的挑战,并且使用阻碍在边缘设备上部署的重型架构。
-
此外,特定领域的隐私策略也很重要。例如,在医疗保健领域,可以开发 HPE 模型来保存/监控临床相关的、有意义的数据(例如运动学细节),同时排除 SPI(例如面部身份)。开发选择性地维护或删除某些功能的特定于应用程序的隐私保护方法可以在不影响性能的情况下确保隐私。未来的工作应该致力于开发端到端隐私保护管道,以解决整个 HPE 流程,从开发安全训练策略到开发用于在边缘设备上部署的轻量级模型。
-
除了隐私之外,还应该考虑更广泛的道德考虑。偏差是由不平衡数据集引起的一个关键问题,这可能会导致不同人口群体的性能下降。当某个群体在训练数据中代表性过高时,对其进行训练的模型可能在代表性不足的人群中表现不佳。在监控背景下,这一点至关重要,因为 HPE 系统适用于比例过高的人群。这可能会导致社会不平等,凸显公平训练策略的必要性。从闭路电视摄像机到无人机等监控技术可以在很大程度上提高安全性,但也引起了对个人隐私和数据滥用的严重担忧。
-
Wheatley 在她的文章中讨论了监视技术的伦理问题。强调在这个数字时代需要平衡隐私和道德,以及强有力的政策和明确的法规的需要。法律和技术策略对于维持监视和隐私之间的平衡都很重要。从法律上讲,许多国家出台了各种管理监控的政策,以保护个人的权利。从技术角度来看,加密、匿名化、保护隐私的生物识别等方法表明安全性可以得到加强。
Generalization across various domains
-
模型的泛化能力是指其应用于训练分布之外的数据时表现良好的能力。大多数 HPE 模型都是在包含来自特定领域或特定场景的数据的数据集上进行训练的。然而,这些模型可能无法推广到具有不同相机视点的未见过的场景。由于域转移,在 COCO 或 Human3.6M 等数据集上训练的模型可能在工业或医疗环境中表现不佳。使用代表特定年龄组或种族人群的数据训练的模型可能在未代表的人群中表现不佳。某些领域(例如老年人医疗保健监测)的数据稀缺限制了模型的泛化能力。缺乏泛化性会影响 HPE 方法在各种场景中的性能。
-
为了提高模型的泛化能力,领域适应 和自监督方法 可以整合。然而,它们依赖于大型数据集,并且不能完全消除人口统计偏差。同样,涉及使用特定领域数据对大型数据集训练的模型进行微调的迁移学习方法可能有助于模型适应不同的条件 Taketsugu 和 Ukita 。为了应对跨不同领域维护多样化数据集的挑战,这可能既耗时又费力,Du 等人提出了一种元迁移学习方法,该方法使用多模态数据,例如高频表面肌电图(sEMG)、视觉惯性里程计(VIO)和图像数据,这些数据仍然是计算密集型的并且在规模上尚未得到充分探索。此外,数据增强技术(例如改变光照、修改姿势和删除一些关键点)可以提高泛化能力。
-
为了一致地检测身体姿势,无论摄像机角度或视角如何,视图不变的表示都可以提供帮助。通过将这些结合起来,HPE 系统可以提高泛化能力。为了向前发展,未来的研究方向应该考虑开发视图不变和人体测量学感知的表示,以保持不同观点和不同身体形状之间姿势的一致性。除了算法和架构的这些进步之外,公平性和泛化性的系统基准测试也至关重要。目前的评估侧重于个人数据集,这些数据集仅限于特定领域或人口群体(不同年龄、性别、种族、体型)。未来的基准应包括跨人口统计的公平性,并在评估过程中考虑跨数据集的泛化。
Real-time and low-power device deployment
-
计算高效且准确的 HPE 模型对于机器人、增强/虚拟现实 (AR/VR) 和监控系统等实时系统至关重要。 SOTA 方法,例如 HRNet 、Hourglass 和基于 Transformer 的方法,具有复杂的架构,需要高处理能力。这些模型针对精度而不是效率进行了优化,这反过来又使得它们对于低功耗设备来说不切实际。然而,当前许多高精度的 SOTA HPE 系统计算量很大。这是在资源有限的环境中部署此类模型的重大危机。
-
HPE 的轻量级模型是一个重要的研究方向。人们已经提出了各种轻量级模型,但它们在各种场景下的精度或适应性往往有限。 HPE 可用于医疗保健和监控等需要低延迟的各种应用。然而,重型模型的推理时间较长,这会导致姿势跟踪延迟或不一致。这可能会导致安全关键应用中的严重问题。随着方法和算法的进步,硬件的进步对于实现实时 HPE 也同样重要。
-
尽管云计算等方法现已广泛用于计算成本高昂的人工智能(AI)任务,但它们面临延迟、隐私和带宽等问题,这阻碍了其在时间关键型应用中的应用。这导致了向边缘计算的强烈转变,其中推理在本地完成以加快响应速度。 Samanta 等人 概述了边缘设备上深度学习的硬件加速器设计。该调查比较了图形处理单元 (GPU)、现场可编程门阵列 (FPGA)、专用集成电路 (ASIC) 和神经处理单元 (NPU) 等各种加速器,并提到了它们在速度和能源效率方面的权衡。
-
早些时候,支持 CUDA 的 GPU 和 cuDNN 库使大规模训练成为可能。加速器,例如 ASIC,例如 DianNao 以及谷歌的 TPU 和 FPGA 获得了比 CPU 和通用 GPU 显着更高的能效。 GPU 由于其灵活性和吞吐量而仍然是最合适的,而 ASIC 和 FPGA 更适合高效部署。调查得出的结论是,硬件进步对于使深度学习模型在实时和低功耗环境中可行具有重要作用。除此之外,最新的 GPU 架构(例如 NVIDIA 的 L40 GPU)还提供了改进的可扩展性和功效。 L40S主要用于生成式AI任务,提供了更强的计算能力,使其成为繁重工作负载和大规模训练的更好选择。在高端领域,基于 NVIDIA Hopper 架构构建的 H100 和 H200 G
-
虽然硬件的进步提高了实时部署的可行性,但基于应用程序设计高效的模型对于实现实时性能也很重要。大多数情况下,HPE 方法是以预测人体所有关节的通用方式设计的。基于应用程序设计模型可能有助于避免不必要的复杂性。但实际上,对于特定的应用,它们只需要特定的关节,而不是同样需要所有的身体关节。在老年护理中心,步行模式和姿势将是 HPE 系统的主要关注点。因此,髋、肩、膝等关节最为重要 。在这种情况下,手指的跟踪并不重要。在驾驶员监控系统中,跟踪上半身运动和眼睛注视非常重要。但相比之下,在手语检测等应用中,即使是很小的手指动作也至关重要,需要进行跟踪 。因此,未来的研究应该集中于应用程序感知的模型设计,其中的方法旨在关注与该领域相关的特定关节或模式,从而避免不必要的模型复杂性。
Robustness in challenging real-world scenarios
-
在现实世界中部署 HPE 系统通常具有挑战性,因为拥挤的场景、运动模糊和弱光条件会降低姿势准确性。在自上而下的方法中,错误通常来自人体检测器,当身体严重重叠时,人体检测器会错过识别人体周围的边界框。由于自下而上的方法首先检测关键点然后对它们进行分组,因此在拥挤的场景中准确地对检测到的关键点进行分组面临着困难。 PoseTrack 强调了在拥挤场景中进行姿势跟踪的几个挑战。常见的挑战包括个人进行快速运动和复杂姿势的运动场景。在团队活动中,多人的近距离可能会混淆姿势跟踪器,导致身份转换或错误分类。
-
为了解决拥挤场景中的挑战,Li 等人 的早期工作提出了 CrowdPose,这是一种关节候选单人姿势估计器 (JC SPPE) 方法,可以预测每个关节位置的多个峰值热图,从而可以捕获目标关节(属于边界框中的人的关节)和属于附近人的关节。然后,对它们应用关节关联算法,并最终创建人关节图。这种方法提高了拥挤场景中姿态估计的准确性,并且也很好地推广到了 COCO 等基准。在此基础上,最近的方法开始关注视频中的时间线索,其中拥挤的场景使人员重新识别更具挑战性。 Doering 和 Gall 引入了一种使用门控注意力变换器的方法,该变换器使用门控机制来适应姿势相似性和外观特征。为了测量检测之间的相似性,他们引入了基于外观的嵌入以及对关键点的姿势相似性进行编码的边缘嵌入。由于姿势相似性在快速运动下通常会失败,因此他们提出了一种门控注意力 Transformer,将外观特征(有助于在快速运动后恢复身份)与基于姿势的线索结合起来。虽然这些方法获得了有希望的结果,但它们的计算量很大,这限制了它们在各种实时应用和边缘设备中的应用。一个潜在的方向是使用轻量级模型,例如图网络或基于状态空间模型的新兴方法来平衡准确性和计算量。
-
现实环境中的另一个常见挑战是运动模糊和弱光条件,这会降低 HPE 系统的性能 。 Zhu et al 引入了 Human from Blur (HfB),这是一种联合执行图像去模糊和姿态估计的方法。他们不是先增强模糊图像,然后估计姿势,而是直接从模糊帧中恢复人的姿势。他们的方法使用姿势先验和运动约束来使预测更加真实,并应用对抗性先验来识别错误的运动。在光线充足的数据集上训练的方法会降低其在弱光场景下的性能。 Lee 等人 引入了 ExLPose 数据集,这是第一个专门为极低光照条件设计的大型基准,在这种条件下,即使人类也难以感知视觉内容。依赖直方图均衡的传统方法被大量用于解决这个问题。然而这些方法的计算量很大。相反,他们提出了一种基于使用特权信息学习(LUPI)与特定照明条件批量归一化(LSBN)相结合的师生框架。
-
与 ExDark 等早期数据集不同,ExDark 专注于物体检测等其他任务的低光场景,EXLPose 提供低光和光线充足的场景,提供更平衡的数据集来评估不同照明下姿态估计的鲁棒性。 Ai 等人 提出了一种使用两个互补的教师网络的方法,无需弱光地面实况数据。他们通过从光线充足的数据中转移知识并应用增强来模拟弱光条件来解决弱光条件的问题。他们的双师学习方法由一位擅长检测可见人物姿势的主老师和一位检测部分可见人物的补充老师组成。尽管取得了进步,但这种方法受到伪标签和增强的质量的限制。未来的工作可以探索扩散模型以生成真实的低照度条件。总体而言,在现实场景中实现稳健性仍然是慧与面临的一个公开挑战。当前的趋势试图一次解决单个问题,无论是运动模糊还是弱光条件。未来的工作应该朝着提出统一框架的方向发展,该框架可以使用单一管道共同解决这些问题。
Accuracy--efficiency trade-offs in real-world deployment
-
HPE 中一个长期存在的问题是模型复杂性和效率之间的权衡,尤其是在实际部署中。 HPE 的一个主要趋势是通过设计更深、更复杂的架构来实现高精度。为了更好地说明这些,表 7 提供了不同模型的比较。 HRNet 及其变体等方法,以及基于 Transformer 的方法,如 TokenPose 、HRFormer 和 MixSTE 在姿势估计方面取得了显着的成就。
-

-
表 7 不同 HPE 模型的准确性和效率比较。 AP 值越高,性能越好,MPJPE 值越低,性能越好
-
-
然而,尽管取得了进步,这些方法仍然面临着与高计算要求和延迟相关的挑战,限制了它们在资源受限的平台上的部署。基于扩散的方法最近通过提高姿态估计精度而成为姿态估计的强大方法。这些方法将姿态估计视为迭代去噪过程,与直接预测关键点的传统回归方法不同。 D3DP 和 DiffPose 将时空 Transformer 与条件扩散相集成,以提高姿态估计的准确性。然而,由于推理时需要数十到数百个迭代去噪步骤,扩散模型的计算成本很高。
-
尽管在 HPE 系统中,传统上准确性一直是主要关注点,但其实际部署受到处理能力、内存和延迟等各种因素的限制。这些限制导致需要轻量级架构来平衡效率和准确性。最近,出现了解决特定挑战的架构。 Hourglass Tokenizer (HoT) 引入了令牌修剪集群 (TPC) 来丢弃冗余帧令牌,并引入了令牌恢复注意 (TRA) 来恢复时空信息。修剪发生在更深的层中,并且初始层仍然处理所有标记。它可以添加到现有的姿势变换器中,无需进行太多修改。该方法实现了良好的精度,同时将 FLOP(浮点运算)减少了 50%。许多轻量级变体,例如 Lite-HRNet 、TokenPose-S 、LAP 等相继出现,它们集成了高效的自注意力、深度可分离卷积等,使模型变得更轻。这些模型从重型模型转变为优化架构,提高了现实世界 HPE 系统的速度和能效。与最先进的基于 Transformer 的架构相比,轻量级 HPE 模型的精度通常较低。
-
进一步的挑战是可扩展性。在自上而下的多人HPE中,需要单独的人员检测和联合预测,计算量可能会随着人数的增加而线性扩展。相反,效率更高的自下而上方法在场景较为拥挤时仍然面临联合分组的困难 。各种基于Transformer 的方法已经显示出强大的代表性能力,但是它们的可扩展性受到自注意力机制的二次复杂度的限制。对于越来越多的人群,这种方法变得更难以部署,尤其是在可用资源有限的情况下。
-
LiteHRNet 和 LAP 等轻量级模型使用高效的轻量级策略来帮助提高可扩展性;然而,由于其表征能力有限,它们常常难以获得良好的姿态估计结果。此外,大多数 HPE 方法都以固定的计算预算运行,无论其部署环境如何。由于缺乏适应性,大多数方法在计算资源波动的动态场景中都举步维艰,这意味着它们可能会变得缓慢、使用过多的计算,或者在没有更多资源时失败。
-
尽管取得了所有这些进步,准确性与效率的权衡仍然是一个悬而未决的问题。未来的研究应侧重于结合高效架构的统一优化策略,以提高 HPE 系统的效率。最近,基于 SSM 的架构(例如 Mamba)已成为 Transformer 的有效替代方案,具有减少的内存使用量和强大的表示学习功能。展望未来,此类架构为推进实时 HPE 系统提供了引人注目的方向。
Conclusion
-
正如本次调查所示,基于深度学习的 2D 和 3D 人体姿态估计方法及其在各个领域的应用是人们广泛关注的研究课题。我们系统地对图像和视频中的单人和多人场景的 2D 和 3D HPE 方法进行分类。每个类别根据主要思想、关键设计原则和监督策略进一步细分为子类别。为了引导读者了解 HPE 的关键贡献和演变,我们提出了一种分类法,可以在多个维度上对它们进行分类,包括出版年份、方法与数据集以及 2D 与 3D。我们的综述涵盖了 2010 年至 2025 年间发表的大量文章,包括各种方法、数据集和新兴范例。
-
我们还回顾了 2D 和 3D HPE 的不同人体模型、损失函数和评估指标。此外,我们还概述了用于 HPE 任务的流行数据集及其优点和缺点。此外,我们还重点介绍了 HPE 的几个新兴方向,例如基于扩散的方法、大型语言模型的集成和多模态方法。正如所讨论的,尽管 HPE 取得了重大进展,但仍然存在需要解决的挑战。我们还讨论了慧与面临的主要挑战以及解决这些挑战的未来研究方向。我们希望我们对未来有前景的研究方向的调查和讨论能够激励研究人员应对这些挑战并进一步推进该领域的发展。
bash
传统方法 (2010前)
↓
ASM/AAM模型 (1995-1998)
↓
深度学习时代 (2014起)
↓
├── DeepPose (2014) - 首个深度学习方法
├── Hourglass (2016) - 热图方法里程碑
├── HRNet (2020) - 高分辨率网络
├── Transformer方法 (2021起)
└── 扩散模型+LLM (2023起)
-
方法选择决策树
应用场景分析 ↓ ├── 2D or 3D? │ ├── 2D → 继续 │ └── 3D → 有3D数据? │ ├── 有 → 全监督 │ ├── 少量 → 弱监督 │ └── 无 → 无监督/多视图 ├── 单人 or 多人? │ ├── 单人 → SPPE方法 │ └── 多人 → 密集场景? │ ├── 是 → Bottom-up │ └── 否 → Top-down ├── 图像 or 视频? │ ├── 图像 → CNN/Transformer │ └── 视频 → 时序建模 ├── 精度优先 or 速度优先? │ ├── 精度 → HRNet/ViTPose │ └── 速度 → Lite-HRNet/LAP └── 资源限制? ├── 无限制 → Transformer/扩散 └── 有限 → 轻量化CNN/Mamba
-
方法选择建议
场景 推荐方法 理由 学术研究 ViTPose++/MixSTE SOTA精度 工业部署 Lite-HRNet/LAP 效率平衡 实时应用 PoseMamba 线性复杂度 3D重建 TCPFormer 时序精度 多模态 RGB+LiDAR/Depth 鲁棒性 隐私场景 红外+边缘计算 安全 -
发展趋势
- 从2D到3D:3D需求增长,但数据稀缺仍是瓶颈
- 从监督到自监督:减少标注依赖
- 从单模态到多模态:传感器融合提升鲁棒性
- 从通用到专用:领域特定优化
- 从云端到边缘:实时性需求推动轻量化