https://www.doubao.com/chat/9226473480559618
https://arxiv.org/pdf/1805.00123
CrowdHuman: A Benchmark for Detecting Human in a Crowd
文章目录
- 论文翻译
-
- CrowdHuman:用于检测人群中人体的基准
- 摘要
- [1. 引言](#1. 引言)
- [2. 相关工作](#2. 相关工作)
-
- [2.1. 人体检测数据集](#2.1. 人体检测数据集)
- [2.2. 人体检测框架。](#2.2. 人体检测框架。)
论文翻译
CrowdHuman:用于检测人群中人体的基准
帅邵∗ 赵紫健∗ 李博勋 肖特特 于刚 张祥宇 孙剑
商汤科技(Face++)
{shaoshuai, zhaozijian, liboxun, xtt, yugang, zhangxiangyu, sunjian}@megvii.com
摘要
近年来,人体检测取得了令人瞩目的进展。然而,在高度拥挤的环境中检测人体的遮挡问题远未解决。更糟糕的是,在当前的人体检测基准中,人群场景的代表性仍然不足。在本文中,我们引入了一个新的数据集,称为CrowdHuman,以更好地评估人群场景中的检测器。CrowdHuman数据集规模大、标注丰富且具有高度多样性。训练和验证子集总共包含47万个实例,每张图像平均有22.6个人,数据集中存在各种类型的遮挡。每个人体实例都标注有头部边界框、人体可见区域边界框和人体全身边界框。本文展示了最先进的检测框架在CrowdHuman上的基线性能。CrowdHuman数据集的跨数据集泛化结果表明,在没有任何额外技巧的情况下,其在包括Caltech-USA、CityPersons和Brainwash在内的先前数据集上取得了最先进的性能。我们希望我们的数据集将作为坚实的基线,并有助于推动未来人体检测任务的研究。
1. 引言
图像中的人体检测是计算机视觉最重要的组成部分之一,近年来吸引了越来越多的关注[29,14,32,30,10,5,4,6,18]。能够准确检测人体的系统在自动驾驶汽车、智能监控、机器人技术和高级人机交互等应用中起着至关重要的作用。此外,它也是多目标跟踪[13]、人体姿态估计[28]和行人搜索[24]等研究主题的基本组成部分。随着卷积神经网络(CNNs)[12,22,8]的发展和蓬勃发展,现代人体检测器[1,29,26]在几个主要的人体检测基准上取得了显著的性能。
然而,随着算法的改进,需要更具挑战性的数据集来评估更复杂的现实世界场景中的人体检测系统,其中人群场景相对常见。在人群场景中,不同的人相互遮挡,重叠度高,导致人群遮挡的巨大困难。例如,当目标行人T与其他行人有很大重叠时,检测器可能无法识别每个人的边界,因为他们的外观相似。因此,检测器会将人群视为一个整体,或者错误地将T的目标边界框移动到其他行人身上。更糟糕的是,即使检测器能够区分人群中的不同行人,高度重叠的边界框也会被非极大值抑制(NMS)的后处理所抑制。结果,人群遮挡使得检测器对NMS的阈值敏感。较低的阈值可能导致召回率急剧下降,而较高的阈值会带来更多的假阳性。
当前的人体检测数据集和基准,如Caltech-USA[6]、KITTI[25]、CityPersons[31]和MSCOCO[17]的"person"子集,为人体检测的快速进展做出了贡献。然而,这些数据集中人群场景的代表性仍然不足。例如,Caltech-USA中每张图像的平均人数仅为0.32,COCOPersons中为4.01,CityPersons中为6.47。这些数据集中两个人体实例之间(IoU大于0.5)的平均成对重叠分别仅为0.02、0.02和0.32。此外,这些数据集的标注人员更有可能将人群中的人体标注为整个忽略区域,这在训练和评估中不能算作有效样本。
我们的目标是通过专门针对具有挑战性的人群场景来推动人体检测的边界。我们收集并标注了一个丰富的数据集,称为CrowdHuman,其中包含大量拥挤的行人。CrowdHuman包含15,000、4,370和5,000张图像,分别用于训练、验证和测试。该数据集经过详尽标注,包含多样化的场景。训练和验证子集中总共有47万个人,每张图像的平均行人数量达到22.6。我们还为每个人提供可见区域边界框标注和头部区域边界框标注以及其全身标注。图1显示了我们的数据集中的示例与其他人体检测数据集中的示例的比较。
总结一下,我们提出了一个名为CrowdHuman的新数据集,具有以下三个贡献:
• 据我们所知,这是第一个专门针对解决人体检测任务中人群问题的数据集。更具体地说,一张图像中的平均人数为22.6,两个人体实例之间(IoU大于0.5)的平均成对重叠为2.4,这两者都远大于现有的基准,如CityPersons、KITTI和Caltech。
• 提出的CrowdHuman数据集提供了三类边界框的标注:头部边界框、人体可见区域边界框和人体全身边界框。此外,这三类边界框是为每个人体实例绑定的。
• 跨数据集泛化能力的实验表明,我们的数据集可以作为许多人体检测任务的强大预训练数据集。一个最初为通用目标检测设计的框架,无需任何特定修改,就在每个先前的基准上提供了最先进的结果,包括用于行人检测的Caltech和CityPersons,用于人体检测的COCOPerson,以及用于头部检测的Brainwash。

图1. 不同人体数据集基准的说明性示例。绿色、黄色、蓝色框内的图像分别来自COCO[17]、Caltech[6]和CityPersons[31]数据集。红色框内第二行的图像来自我们的CrowdHuman基准,其中为每个人标注了全身、可见身体和头部边界框。
2. 相关工作
2.1. 人体检测数据集
行人检测数据集的先驱工作包括INRIA[3]、TudBrussels[27]和Daimler[7]。这些数据集为激发人体检测的研究兴趣和推动该领域的发展做出了贡献。然而,随着算法性能的提升,这些数据集逐渐被Caltech - USA[6]和KITTI[25]等更大规模的数据集所取代。最近,Zhang等人在CityScapes[2]数据集的基础上构建了丰富多样的行人检测数据集CityPersons[31]。该数据集由一辆汽车在多个城市中行驶时记录所得,包含密集的行人,并使用高质量的边界框进行标注。
尽管这些数据集被广泛使用,但它们都存在密度低的问题。据统计,Caltech - USA和KITTI数据集每张图像中平均人数不足1人,而CityPersons数据集每张图像中约有6人。在这些数据集中,人群场景的代表性明显不足。更糟糕的是,由于对人群区域进行详尽标注极其困难且耗时,这些数据集的标注规则允许标注人员忽略和丢弃包含大量行人的区域。
2.2. 人体检测框架。
传统的人体检测器,如ACF[4]、LDCF[19]和Checkerboard[32],利用基于积分通道特征(IDF)[5]的各种滤波器,并结合滑动窗口策略。
近年来,基于卷积神经网络(CNN)的检测器已成为行人检测领域的主流趋势。在[29]中,从深度神经网络中提取自学习特征,并使用增强决策森林来检测行人。Cai等人[1]提出了一种架构,该架构使用不同层次的特征来检测各种尺度的行人。Mao等人[18]提出了一种多任务网络,以进一步提高检测性能。Hosang等人[9]提出了一种学习方法来提高非极大值抑制(NMS)的鲁棒性。[20,33]中利用基于部件的模型来缓解遮挡问题。为了检测人群场景中的行人,提出了排斥损失[26]。