【论文记录】Boosting Detection in Crowd Analysis via Underutilized Output Features

Boosting Detection in Crowd Analysis via Underutilized Output Features

Abstract

  Crowd Hat使用一种混合的2D-1D压缩技术进行细化空间特征与获取特定人群信息的空间和数量分布。进一步的,Crowd Hat采用自适应区域的NMS阈值与一个解耦然后对齐的范式来解决基于检测方法的缺陷。

Methodology

  作者认为检测得到预测的Bounding Boxes和Proposals包含丰富的特定人群信息。作者采用检测结果的区域尺寸和置信度分数。他认为这些特征对于人群分析是Pure。

Output Feature Compression

  直接把检测结果的中心坐标映射到输入图片上,得到的生成特征图存在着预测的Bounding Boxes和Proposals数量远小于图片中像素的数量,会导致特征图过于稀疏无法传递关键信息。

  作者提出了一种混合的2D-1D压缩方法进一步细化输出特征,获得这些特定人群信息的空间和数量分布。

2D Compression

  作者首先根据Proposal或者Bounding Box的中心坐标把他们映射到输入图片上,然后把图片分成S×S个Patches,将Patches的元素相加获得压缩矩阵M中的相应元素。

1D Compression

  1D压缩用来寻找输出特征的数值分布。例如一个低的输出Bounding box area sizes分布可能暗示一个很高的人群密度。

  首先,作者正则化置信度分数和区域尺寸值到0,1区间。然后将区间分成L个间隔。最后,计算落入每个区间值的数量。


Crowd Hat Network

  把2D压缩矩阵堆叠成t2d,把1D压缩矩阵堆叠成t1d

Region-Adaptive NMS Decoder

  将全局特征与局部特征进行连接,然后输入到MLP中,生成region-adaptive NMS阈值。

Decouple-then-Align Paradigm

  作者通过直接使用全局特征回归人群数量,对模型的检测过程与计数过程进行了解耦,使用一个独立的MLP作为Count Decoder PC去预测人群数量。

  将Bounding Boxes与Count中值小的且置信度高的作为最终结果。

Summary

  本文的主要思想是通过Proposals和Bounding Boxes获取特定人群的空间信息和数值信息,根据这些信息学习自适应的NMS阈值与人群数量。

相关推荐
Aloudata几秒前
宽表 vs 语义层:论 AI 时代语义编织对智能数据分析的重要性
大数据·人工智能·数据挖掘·数据分析·agent·语义层·语义编织
爱看科技1 分钟前
苹果XR路线调整换道智能眼镜,Snap/微美全息(WIMI.US)完善AI+AR底座抢跑下一风口
人工智能·ar·xr
happyprince3 分钟前
13-Hugging Face Transformers之AutoModel 自动分发机制深入分析
人工智能
phantom_1113 分钟前
Multica 使用心得介绍
人工智能·multica
happyprince4 分钟前
16-Hugging Face Transformers之测试体系架构总览
人工智能
来让爷抱一个4 分钟前
MonkeyCode 实战:AI 驱动的 GitHub PR 工作流优化
人工智能·开源·ai编程
梦奇不是胖猫4 分钟前
《从0到1将 AI核心名词连成线》
人工智能
泠不丁4 分钟前
个人数字化效率系统:从 Obsidian 复盘到自动化时间管理的进阶实践
人工智能
专注搞钱8 分钟前
半导体MES智能化升级方案:基于机器学习与Transformer大模型落地实战手册
人工智能·机器学习·transformer
专注搞钱9 分钟前
【行业思考】半导体CIM+AI+SKILL融合探索|FAB设备智能自动化演进解析
运维·人工智能·自动化