
论文:[1803.10683v3] Pose2Seg: Detection Free Human Instance Segmentation
本文介绍了一种名为Pose2Seg的新型人体实例分割框架,它不依赖于传统的目标检测方法,而是直接利用人体姿态信息来区分和分割图像中的个体。这一方法特别适用于处理人体重叠和遮挡的情况,这些情况在以往的目标检测基础上的分割方法中是一个难题。Pose2Seg框架通过一个称为Affine-Align的对齐模块,基于人体姿态而非边界框来对齐区域,从而提高了分割精度。此外,框架还融合了人工骨架特征,以增强网络对重叠人体的区分能力。为了评估这一方法,作者引入了一个新的基准数据集OCHuman,它专注于严重遮挡的人体实例,并提供了边界框、人体姿态和实例掩码的全面标注。实验结果表明,Pose2Seg在OCHuman数据集上的性能显著优于现有的基于检测的方法,特别是在处理遮挡情况下。在一般日常场景中,Pose2Seg也展现出了优越的分割性能。消融实验进一步验证了Affine-Align和骨架特征对于提升分割性能的重要性。尽管Pose2Seg取得了显著进展,但仍存在改进空间,尤其是在关键点检测的准确性和鲁棒性方面。
摘要
- 本文提出了一种基于人体姿态的实例分割框架,该框架不依赖于目标检测,而是直接基于人体姿态进行实例分割。
- 该框架在处理遮挡情况下的人体实例分割问题上,比现有的基于检测的方法更准确。
- 作者还引入了一个名为"Occluded Human (OCHuman)"的新基准数据集,专注于标注被遮挡的人体,包括边界框、人体姿态和实例掩码。
引言
研究背景与动机
计算机视觉领域中与人类相关的研究日益增多,尤其是在多人姿态估计和人体实例分割方面。
传统的实例分割方法依赖于目标检测,但在处理重叠对象时存在局限性,尤其是在严重遮挡的情况下。
人体作为特殊类别
人体可以通过姿态骨架来定义,这使得在区分严重交织的人体实例时,姿态骨架比边界框更为有效。
多人姿态估计进展
多人姿态估计领域已经取得了显著进展,尤其是不依赖于目标检测的自底向上方法。
基于姿态的实例分割框架
本文提出了一个新的框架,它基于人体姿态而非区域提议检测来分离实例,这在处理遮挡情况下更为有效。
引入了一个新的对齐模块AffineAlign,它基于人体姿态进行对齐,包括缩放、平移、旋转和左右翻转。
骨架特征的利用
明确使用人工骨架特征来指导分割模块,提高了分割的准确性,并使网络能够更容易区分在同一感兴趣区域(RoI)中严重交织的不同实例。
OCHuman数据集
由于缺乏包含严重遮挡人体和全面标注的公开数据集,作者引入了一个新的基准数据集OCHuman,它包含了边界框、人体姿态和实例掩码的全面标注,是最具挑战性的人体实例分割数据集之一。
主要贡献
提出了一个新的基于姿态的人体实例分割框架,特别是在遮挡情况下表现优异。
提出了AffineAlign对齐模块,用于基于人体姿态的图像窗口对齐使用人工骨架特征来指导分割模块,进一步提升了分割准确性。
引入了OCHuman数据集,为研究遮挡问题提供了新的挑战性基准。
相关工作
多人姿态估计(Multi-Person Pose Estimation)
自顶向下方法(Top-down methods)
方法描述**:**自顶向下方法首先使用目标检测来裁剪出每个人,然后在每个人体实例上应用单人姿态估计方法。这些方法因为依赖于目标检测,所以在处理严重遮挡时存在缺陷。
代表性工作**:**提到了一些代表性的工作,如 Cao 等人利用人体结构知识预测关键点热图和 PAFs,然后连接身体部位;Newell 等人设计了每个身体部位的标签得分图,并使用得分图来分组身体部位关键点。
自底向上方法(Bottom-up methods)
方法描述**:**自底向上方法首先检测出所有人的身体部位关键点,然后聚类这些部位成为人体姿态的实例。这些方法不依赖于目标检测,因此在处理遮挡方面表现更好。
代表性工作**:**Pishchulin 等人提出了一个复杂的框架,使用 CNN 分区并标记身体部位;Insafutdinov 等人使用 Resnet 提高精度,并提出图像条件的成对项来增加速度;Cao 等人使用人体结构知识,预测关键点热图和 PAFs,并连接身体部位;Newell 等人为每个身体部位设计了标签得分图,并用得分图来分组身体部位关键点。
实例分割(Instance Segmentation)
多阶段流水线方法
方法描述**:**一些工作采用多阶段流水线,首先使用检测生成边界框,然后应用语义分割。
代表性工作**:**Girshick 等人提出了 Deformable Part Models 作为卷积神经网络;Hariharan 等人同时进行检测和分割;Hariharan 等人使用 Hypercolumns 进行对象分割和细粒度定位。
检测与分割的紧密集成方法
方法描述**:**其他工作采用检测和分割的紧密集成,例如 Mask R-CNN,它在一个端到端的框架中同时进行检测和分割。
代表性工作**:**Mask R-CNN 是在 COCO 数据集竞赛中表现最好的框架。
结合人体姿态估计和实例分割的工作(Harnessing Human Pose Estimation for Instance Segmentation)
Mask R-CNN**:**在检测对象的同时生成实例分割和人体姿态估计,但在实例分割任务中,仅使用掩码的表现比结合关键点和掩码更好。
Pose2Instance**:**提出了一个级联网络,利用人体姿态估计进行实例分割,但依赖于人体检测,在边界框重叠大时表现不佳。
PersonLab**:**将实例分割视为像素聚类问题,并使用人体姿态来细化聚类结果,尽管不基于边界框检测,但在分割任务上不如 Mask R-CNN 表现好。
Occluded Human Benchmark

OCHuman数据集介绍
数据集规模与特点**:**作者介绍了他们创建的"Occluded Human (OCHuman)"数据集,该数据集包含4731张图像,共8110个详细标注的人体实例。这些图像中的人体实例都经历了严重的遮挡。
数据集难度**:**OCHuman数据集以其高难度著称,平均每人的边界框区域有超过67%被其他人遮挡,这使得它成为人体实例分割领域最复杂和最具挑战性的数据集之一。
标注(Annotations)
标注过程**:**对于每张图像,作者首先标注出所有人体实例的边界框。然后计算所有人之间的IoU(交并比),并将MaxIoU大于0.5的个体标记为严重遮挡实例。
注释内容**:**OCHuman数据集包含了三种与人体相关的注释:边界框、实例掩码和17个身体关节位置。这些注释参考了COCO数据集中的身体关节定义,包括眼睛、鼻子、耳朵、肩膀、肘部、手腕、臀部、膝盖和脚踝等。
数据集分割(Dataset Splits)
分割目的**:**由于OCHuman数据集中的所有实例都经历了严重的遮挡,作者认为使用通用数据集(如COCO)作为训练集,然后用OCHuman数据集测试分割方法对遮挡的鲁棒性更为合适。
分割细节**:**OCHuman数据集被分为验证集和测试集。通过随机选择,验证集包含2500张图像,测试集包含2231张图像,分别包含4313和3797个实例。
难度子集**:**作者进一步将OCHuman数据集的实例分为两个子集:OCHuman-Moderate和OCHuman-Hard。OCHuman-Moderate包含MaxIoU在0.5到0.75之间的实例,而OCHuman-Hard包含MaxIoU大于0.75的实例,后者更具挑战性。
数据集统计(Dataset Statistics)
与COCO数据集的比较**:**作者将OCHuman数据集与COCO数据集中的人物部分进行了比较。尽管COCO包含了全面的注释,但它包含的遮挡人体案例很少,因此无法帮助评估方法在面对遮挡时的能力。OCHuman数据集旨在涵盖与人体相关的三个最重要任务:检测、姿态估计和实例分割,并且由于其严重的遮挡情况,成为最具挑战性的基准。
统计数据**:**作者提供了OCHuman数据集与COCO数据集的统计数据对比,包括图像数量、人物数量、平均MaxIoU等,以展示OCHuman数据集的挑战性。
方法

概述(Overview)
网络结构**:**这部分提供了整体网络结构的概览,该结构接受图像和人体姿态作为输入。首先,使用基础网络提取图像特征,然后通过一个对齐模块(称为Affine-Align)根据人体姿态将区域对齐到统一的大小(本文中为64×64像素)。同时,为每个人体实例生成骨架特征,并将其与对齐后的区域合并。接着,使用称为SegModule的分割模块,该模块基于ResNet的残差单元设计。最后,使用Affine-Align操作中估计的矩阵来逆转对齐,得到最终的分割结果。
SegModule的深度**:**作者还讨论了SegModule的深度对系统性能的影响,并进行了实验。
Affine-Align操作(Affine-Align Operation)
灵感来源**:**Affine-Align操作受到Faster R-CNN中的RoIPooling和Mask RCNN中的RoI-Align的启发,但与它们不同,Affine-Align是基于人体姿态而不是边界框来对齐人物。
操作流程**:**首先,通过聚类数据集中的姿态并使用每个聚类中心作为姿态模板,来表示数据集中的标准姿态。然后,对于图像中检测到的每个姿态,估计其与模板之间的仿射变换矩阵H,并根据变换误差选择最佳的H。最后,将H应用于图像或特征,并使用双线性插值将其变换到所需的分辨率。
人体姿态表示(Human Pose Representation)
姿态向量**:**人体姿态表示为向量列表。每个向量P = (C1, C2, ..., Cm) ∈ Rm×3代表一个人的的姿态,其中Ci = (x, y, v) ∈ R3是一个3D向量,代表单个部位(如右肩、左踝)的坐标和该身体关节的可见性。m是数据集相关的参数,表示单个姿态中的部分总数,在COCO数据集中为17。
姿态模板(Pose Templates)
聚类**:**作者使用K-means聚类从训练集中的姿态模板,以最佳代表各种人体姿态的分布。通过优化方程来聚类姿态,并定义两个人体姿态之间的距离。
模板生成**:**在K-means聚类后,使用每个聚类的平均值Pµi形成姿态模板,并用它来代表整个群体。在Pµi中,v > 0.5的身体关节被视为有效点。

估计仿射变换矩阵(Estimate Affine Transformation Matrix)
矩阵优化**:**优化方程来估计仿射变换矩阵H,该矩阵将姿态坐标变换得尽可能接近模板坐标。H是一个2×3矩阵,包含5个独立变量:旋转、缩放因子、x轴平移、y轴平移和是否进行左右翻转。通过为每个模板定义一个分数来选择每个估计姿态的最佳模板。
骨架特征(Skeleton Features)
PAFs和部分置信度图**:**这部分介绍了骨架特征,采用部分亲和场(PAFs)来表示人体姿态的骨架结构。PAFs是一个2通道的向量场图,对于COCO数据集中的每个人体姿态实例,PAFs是一个38通道的特征图。此外,还使用身体部位的部分置信度图来强调这些区域的重要性。对于COCO数据集,每个人体姿态有一个17通道的部分置信度图和一个38通道的PAFs图,因此每个人体实例的骨架特征总共有55个通道。
SegModule(SegModule)
SegModule设计**:**由于在对齐后引入了骨架特征来人工扩展图像特征,SegModule需要有足够的感受野来完全理解这些人工特征,并学习它们与基础网络提取的图像特征之间的联系。因此,SegModule基于对齐RoIs的分辨率设计。SegModule以一个7×7、步长为2的卷积层开始,后跟几个标准残差单元,以实现对RoIs的大感受野。然后,使用双线性上采样层恢复分辨率,再使用另一个残差单元和一个1×1的卷积层来预测最终结果。这样的结构有10个残差单元,可以实现大约50像素的感受野,对应于64×64的对齐大小。

实验
遮挡情况下的性能(Performance on occlusion)
实验目的**:**这部分评估了作者提出的方法在处理遮挡情况下的性能,并与Mask R-CNN进行了比较。
数据集**:**所有方法都在COCOPersons数据集上训练,并在OCHuman数据集上测试。
结果**:**基于关键点检测器基线的方法,作者的框架在OCHuman数据集上的性能比Mask R-CNN高出近50%。当使用地面真实(GT)关键点作为输入时,性能提升超过两倍,表明更好的关键点检测器可以显著提升框架在遮挡问题上的性能。

一般情况的性能(Performance on general cases)
实验目的**:**这部分评估了模型在一般日常场景中的表现。
数据集**:**在COCOPersons验证集上使用地面真实关键点作为输入,作者的模型在实例分割任务上达到了0.582的AP值。当使用预测的姿态关键点时,AP值达到了0.555,而Mask R-CNN在同一数据集上仅达到了0.532的AP值。
与现有工作比较**:****作者还将结果与PersonLab进行了比较,使用更重的骨**干网络和多尺度预测,作者的方法在性能上超过了PersonLab。


消融实验(Ablation Experiments)
实验目的**:**这部分通过一系列消融实验来分析不同组件对整体性能的影响。
Affine-Align与RoI-Align的比较(Affine-Align v.s. RoI-Align)
遮挡情况**:**在OCHuman验证集上,使用基于GT边界框的RoI-Align策略达到了0.476的AP值,而基于GT人体姿态的Affine-Align达到了0.544的AP值,表明即使不考虑NMS在处理遮挡时的不足,基于姿态的对齐策略仍然优于基于边界框的对齐策略。
一般情况**:**在COCOPersons验证集上,结合RoI-Align和骨架特征的最佳性能达到了0.648的AP值。如果只依赖于其中一个输入(边界框或关键点),结合Affine-Align和骨架特征的策略比RoI-Align策略表现更好。
有无骨架特征的比较(With/Without Skeleton Features)
实验目的**:**探讨人工骨架特征对不同对齐策略的影响。
结果**:**骨架特征对于不同的对齐策略都是有益的,因为它们可以为网络提供更多的信息,并引导网络关注特定的个体,尤其是在RoI中有多个人时。

SegModule的感受野(SegModule)
实验目的**:**探讨SegModule的感受野对系统性能的影响。
结果**:**通过堆叠不同数量的残差单元来实现不同的感觉野。实验表明,具有10个残差单元的SegModule可以提供约50像素的感受野,这对于64×64的对齐大小是足够的。更深的架构几乎没有带来额外的好处。

结论
框架创新**:**论文提出了一种新颖的基于人体姿态的人体实例分割框架,该框架不依赖于传统的目标检测方法,而是直接利用人体姿态信息进行实例分割。
性能优势**:**与现有基于检测的实例分割框架相比,新框架在一般场景下表现更优,特别是在处理遮挡情况下的人体实例分割问题时,展现了显著的性能提升。
Affine-Align操作**:**通过引入Affine-Align操作,一种基于人体姿态的区域选择策略,代替了传统的基于边界框的对齐方法,如RoI-Align,实验结果证明了其在处理遮挡和一般情况时的有效性。
骨架特征融合**:**明确地将人体姿态骨架特征与图像特征结合,不仅提高了分割的准确性,还增强了网络区分重叠实例的能力,尤其在处理遮挡情况时更为有效。
OCHuman数据集**:**引入了OCHuman数据集,这是一个专注于严重遮挡人体的新基准,为研究遮挡问题提供了挑战性的测试平台,强调了遮挡问题的重要性,并推动了算法在现实生活场景中的实用性和鲁棒性。
硬性的标准其实限制不了无限可能的我们,所以啊!少年们加油吧!