Abstract

Crowd Hat使用一种混合的2D-1D压缩技术进行细化空间特征与获取特定人群信息的空间和数量分布。进一步的，Crowd Hat采用自适应区域的NMS阈值与一个解耦然后对齐的范式来解决基于检测方法的缺陷。

Methodology

作者认为检测得到预测的Bounding Boxes和Proposals包含丰富的特定人群信息。作者采用检测结果的区域尺寸和置信度分数。他认为这些特征对于人群分析是Pure。

直接把检测结果的中心坐标映射到输入图片上，得到的生成特征图存在着预测的Bounding Boxes和Proposals数量远小于图片中像素的数量，会导致特征图过于稀疏无法传递关键信息。

作者提出了一种混合的2D-1D压缩方法进一步细化输出特征，获得这些特定人群信息的空间和数量分布。

作者首先根据Proposal或者Bounding Box的中心坐标把他们映射到输入图片上，然后把图片分成S×S个Patches，将Patches的元素相加获得压缩矩阵M中的相应元素。

1D压缩用来寻找输出特征的数值分布。例如一个低的输出Bounding box area sizes分布可能暗示一个很高的人群密度。

首先，作者正则化置信度分数和区域尺寸值到[0，1]区间。然后将区间分成L个间隔。最后，计算落入每个区间值的数量。

把2D压缩矩阵堆叠成t_2d，把1D压缩矩阵堆叠成t_1d。

将全局特征与局部特征进行连接，然后输入到MLP中，生成region-adaptive NMS阈值。

作者通过直接使用全局特征回归人群数量，对模型的检测过程与计数过程进行了解耦，使用一个独立的MLP作为Count Decoder P_C去预测人群数量。

将Bounding Boxes与Count中值小的且置信度高的作为最终结果。

本文的主要思想是通过Proposals和Bounding Boxes获取特定人群的空间信息和数值信息，根据这些信息学习自适应的NMS阈值与人群数量。