P2PNet:基于点的密集人群计数与定位

在人群分析领域,人群计数是一项基础性任务,但仅提供人数统计结果已难以满足下游高级任务(如人群跟踪、异常检测、行为预测等)的实际需求。传统方法要么依赖密度图回归,无法提供个体精确位置;要么通过伪边界框进行检测,存在标注繁琐、后处理复杂且易出错等问题。为此,腾讯优图实验室等机构的研究者提出了一种纯粹的点基框架(Purely Point-Based Framework),并设计了对应的 Point-to-Point Network(P2PNet),实现了人群计数与个体定位的联合优化。

原文链接:2107.12746

代码链接:https://github.com/TencentYoutuResearch/CrowdCounting-P2PNet

沐小含持续分享前沿算法论文,欢迎关注...

一、研究背景与动机

1.1 人群分析的核心痛点

人群分析的核心需求已从 "单纯计数" 向 "精细定位 + 计数" 演进。下游任务(如人群跟踪、异常行为检测)不仅需要知道人群数量,更需要获取每个个体的精确位置。然而,现有方法存在明显缺陷:

  • 基于密度图的方法:通过回归像素级密度图并求和得到人数,无法提供个体位置信息,且密度图的中间表示与人类标注逻辑(点标注)不一致,存在固有偏差。
  • 基于定位的方法
    • 基于边界框的方法:需要密集的边界框标注(耗时耗力),或通过点标注生成伪边界框(不准确),后续 NMS 等后处理易导致漏检。
    • 基于点 /blob 的方法:在拥挤区域难以处理近距离个体的重复预测或分割问题,鲁棒性不足。

1.2 研究动机

为解决上述问题,研究者提出:

  1. 采用纯点基表示:直接以人体头部中心点作为标注和预测目标,既符合人类标注习惯(标注成本低),又能提供精确位置信息。
  2. 设计端到端框架:绕过密度图、伪边界框等中间步骤,直接预测点集,简化流程并减少误差传播。
  3. 提出更全面的评估指标:现有指标要么只关注计数误差,要么忽略人群密度差异或重复预测惩罚,需设计同时衡量定位精度与计数准确性的指标。

二、核心贡献

论文的核心贡献可概括为三点,贯穿 "框架 - 指标 - 模型" 三个层面:

  1. 提出纯点基联合框架:首次明确以点标注为学习目标,直接输出个体中心点集,同时完成计数与定位,适配下游任务需求。
  2. 设计密度归一化平均精度(nAP):解决了现有指标的缺陷,能同时评估定位误差、计数准确性,并考虑人群密度差异。
  3. 提出 P2PNet 模型:作为点基框架的具体实现,通过匈牙利算法实现预测点与真实点的一对一匹配,避免重复或漏检,取得了 SOTA 性能。

三、核心技术详解

3.1 纯点基框架定义

该框架的核心思想是:输入图像 + 点标注(头部中心点)→ 输出预测点集(含坐标与置信度),无需任何中间表示。

形式化定义
  • 给定图像含 个个体,真实点集为 ,其中 为第 个个体的头部中心点。
  • 模型 输出预测点集 和对应的置信度集 ,M 为预测个体数。
  • 目标:使预测点与真实点的距离尽可能小(定位准),且 尽可能接近(计数准)。
框架优势
  • 标注成本低:仅需标注头部中心点,无需边界框或密度图。
  • 定位精度高:直接输出点坐标,无中间表示的误差传递。
  • 适配下游任务:提供的个体位置可直接用于跟踪、行为分析等。

3.2 评估指标:密度归一化平均精度(nAP)

现有指标的不足:

  • 图像级 MAE/MSE:仅衡量计数误差,忽略定位精度。
  • 局部误差指标(如 Patch-level MAE):定位评估粗糙。
  • 基于 AP 的指标:未考虑人群密度差异(拥挤区域允许更大定位误差),或缺乏重复预测惩罚。
nAP 的设计逻辑

nAP 基于目标检测中的 AP(Precision-Recall 曲线下面积),但引入了密度归一化一对一匹配策略,同时解决定位、计数、密度差异三大问题。

计算步骤
  1. 预测点排序:将所有预测点 按置信度 从高到低排序。

  2. 一对一匹配:按排序顺序,依次判断每个预测点是否为真阳性(TP):

    • 仅当预测点 能匹配到未被匹配过的真实点 ,且满足密度归一化距离准则时,标记为 TP;否则为假阳性(FP)。
  3. 密度归一化距离准则避免拥挤区域(真实点密集)与稀疏区域采用相同距离阈值,定义匹配准则:


    其中:

    • :预测点与真实点的欧氏距离。
    • :真实点 到其 个最近邻真实点的平均距离(衡量局部密度,k=3 为默认值)。
    • :定位精度阈值(=0.5 为常用值,代表预测点需落在真实点的 "局部密度半径" 的 50% 以内)。
阈值设置与整体评估
  • 不同 对应不同定位精度要求:
    • =0.05:严格定位(仅允许极小误差)。
    • =0.25:高精度定位。
    • =0.5:满足多数实际场景的定位需求。
  • 整体性能:计算 从 0.05 到 0.50(步长 0.05)的 nAP 平均值,记为 nAP[0.05:0.05:0.50]。
示意图

(注:黄色圆为 范围,蓝色圆为 =0.5 阈值,红色圆为 =0.25 阈值。=0.5 时,该区域内多数像素的最近真实点为 ,符合实际定位需求。)

3.3 关键问题:预测点与真实点的匹配策略

纯点基框架的核心挑战是:如何为预测点分配真实目标 (即确定哪个预测点对应哪个真实点),因为预测点数量 与真实点数量 可能不相等,且存在重复或漏检风险。

三种匹配策略对比
  1. 1 对 N 匹配:为每个真实点分配最近的预测点。缺陷:多个真实点可能匹配到同一个预测点,导致计数低估(如图 3 (a))。
  2. N 对 1 匹配:为每个预测点分配最近的真实点。缺陷:多个预测点可能匹配到同一个真实点,导致计数高估(如图 3 (b))。
  3. 一对一匹配:通过匈牙利算法找到预测点与真实点的最优双向匹配,未匹配的预测点标记为负样本。优势:无计数偏差,且无需手动设置负样本阈值(如图 3 (c))。

(注:绿色为真实点,红色为正样本预测点,灰色为负样本预测点。一对一匹配避免了高估 / 低估问题。)

匹配成本矩阵

为了让高置信度的预测点优先匹配到真实点,匹配成本不仅考虑距离,还引入置信度权重:

其中:

  • :距离权重(平衡距离与置信度的影响,默认值 5e-2)。
  • :预测点的置信度(高置信度降低匹配成本,优先被匹配)。

3.4 P2PNet 模型细节

P2PNet 是纯点基框架的具体实现,分为特征提取、点提案生成、一对一匹配、损失函数四大模块。

网络架构
  • 特征提取 backbone

    • 基于 VGG-16 bn 的前 13 层卷积层,提取深层特征。
    • 引入上采样( nearest neighbor interpolation,缩放因子 2)和横向连接(lateral connection),融合浅层特征,提升特征图分辨率(最终步长 =8),为精准定位提供细粒度特征。
    • 最终输出特征图 (尺寸 H/8 × W/8)。
  • 点提案生成(双分支预测) :基于 设计两个并行分支,分别预测点坐标和置信度:

    • 参考点设置 :特征图 的每个像素对应输入图像的 补丁(如 =8 时,对应 8×8 像素补丁)。每个补丁内设置 个参考点(默认 =4,拥挤数据集如 UCF-QNRF 设为 8),参考点布局分为两种:

      • 中心布局(Center Layout):参考点为补丁中心。
      • 网格布局(Grid Layout):参考点均匀分布在补丁内(如图 4),更适合拥挤区域。
    • 坐标回归分支:预测每个参考点的偏移量 ,最终预测点坐标计算为:


      其中 =100 为归一化项,用于缩放偏移量。

    • 置信度分类分支:通过 Softmax 输出每个预测点的置信度 (判断该点是否为真实头部中心)。

(注:s=2 时,K=4 的两种布局。网格布局覆盖更全面,适合拥挤场景。)

  1. 一对一匹配:训练阶段,通过匈牙利算法对预测点提案与真实点进行一对一匹配,确定正样本(匹配成功的预测点)和负样本(未匹配的预测点)。

  2. 损失函数:联合分类损失(置信度优化)和回归损失(坐标优化):

    • 分类损失(交叉熵)


      其中 为匹配后的索引,=0.5 为负样本权重(平衡正负样本)。

    • 回归损失(欧氏距离)

    • 总损失


      其中 =2e−4 为回归损失权重。

四、实验验证

4.1 实验设置

数据集

采用 5 个主流人群计数数据集,覆盖不同密度、分辨率场景:

  • ShanghaiTech PartA(高密度)、PartB(低密度)。
  • UCF CC 50(场景复杂,人数波动大)。
  • UCF-QNRF(人数范围广,挑战性强)。
  • NWPU-Crowd(大规模高密度,含边界框标注用于定位评估)。
数据增强与超参数
  • 数据增强:随机缩放(0.7-1.3 倍)、随机裁剪(128×128 补丁)、随机翻转(概率 0.5)。
  • 超参数:批量大小 8,Adam 优化器(backbone 学习率 1e-5,其他层 1e-4),参考点 K=4(UCF-QNRF 设为 8)。

4.2 主要实验结果

1. nAP 指标性能

表 1 展示了 P2PNet 在不同 下的 nAP 表现:

关键结论:

  • δ=0.5 时,所有数据集的 nAP 均超过 83%,部分达 94%,证明定位精度优异。
  • 即使 δ=0.25(高精度要求),nAP 仍超过 55%,鲁棒性强。
  • δ=0.05 时性能较低,因标注偏差和极端定位要求导致,属正常现象。
2. 计数性能(MAE/MSE)

与 SOTA 方法对比,P2PNet 在多数数据集上取得最优结果:表 2 主流数据集计数性能对比(MAE/MSE)

表 3 NWPU-Crowd 数据集计数性能对比

关键结论:

  • SHTech PartA(高密度):MAE=52.74,比第二名 ADSCNet 降低 4.8%,MSE 降低 12.9%。
  • SHTech PartB(低密度):MAE=6.25,为所有方法最优。
  • UCF CC 50:MAE=172.72,显著优于其他方法。
  • NWPU-Crowd:MAE [O]=77.44,比第二名 DM-Count 降低 12.4%,整体计数性能 SOTA。
3. 定位性能(NWPU-Crowd 数据集)

利用 NWPU-Crowd 的边界框标注,对比 F1-Measure/Precision/Recall:

P2PNet 的 F1-Measure 达 71.2%,为所有对比方法最优,证明定位精度领先。

4. 定性结果

(注:白色数字为真实计数 / 预测计数,红色点为预测点,绿色点为真实点。P2PNet 在稀疏、中等、高密度场景下均能精准匹配真实点,计数误差小。)

4.3 消融实验

1. 参考点布局影响

表 4 参考点布局对比(SHTech PartA)

网格布局更优,因密集分布的参考点能更好覆盖拥挤区域的头部。

2. 特征图步长影响

表 5 特征图步长对比(SHTech PartA)

  • 步长 s=8 时计数性能最优(平衡分辨率与计算量)。
  • 步长 s=4 时 nAP 最高(特征图分辨率最高,定位更准),证明高分辨率特征对定位的重要性。
3. 参考点数量 K 影响

表 6 参考点数量 对比(SHTech PartA)

=4 时性能最优, 过大导致负样本增多,性能下降;=1 时仍能保持 SOTA 水平,证明框架鲁棒性。

五、讨论与展望

5.1 优势与创新点总结

  1. 范式创新:首次提出纯点基框架,彻底抛弃密度图、伪边界框等中间表示,直接建模 "点标注→点预测",符合人类认知与下游任务需求。
  2. 指标创新:nAP 指标同时解决定位、计数、密度差异三大问题,为联合任务提供统一评估标准。
  3. 方法创新:一对一匹配策略(匈牙利算法)避免计数偏差,双分支预测与特征融合保证定位与计数精度。

5.2 局限性与未来方向

  1. 未明确处理尺度变化:虽然点表示本身与尺度无关,但极端尺度(超大 / 超小头部)仍可能影响性能,可结合多尺度特征融合(如 FPN)进一步优化。
  2. 灰色图像 / 老照片适应性不足:需增加更多此类数据训练,提升模型泛化能力。
  3. 实时性优化:当前模型基于 VGG-16,可替换为轻量级 backbone(如 MobileNet),适配实时场景。

5.3 应用场景

P2PNet 的定位 + 计数能力可直接应用于:

  • 公共安全:人群密集度监测、异常行为检测(如踩踏预警)。
  • 智能交通:路口行人计数与跟踪。
  • 商业分析:商场、景区人流量统计与热点区域定位。

六、总结

本文提出的纯点基框架与 P2PNet 模型,重新定义了人群计数与定位任务的解决范式。通过直接预测头部中心点集,避免了中间表示的误差;nAP 指标提供了全面的性能评估;一对一匹配策略保证了计数与定位的准确性。实验证明,P2PNet 在多个数据集上取得 SOTA 性能,既满足了下游任务对个体位置的需求,又保持了计数精度,为人群分析领域提供了新的研究思路。未来,结合多尺度融合、轻量级架构等优化,该方法有望在更多实际场景中落地应用。

相关推荐
datamonday15 分钟前
[EAI-037] π0.6* 基于RECAP方法与优势调节的自进化VLA机器人模型
人工智能·深度学习·机器人·具身智能·vla
超的小宝贝28 分钟前
机器学习期末复习
深度学习·机器学习·强化学习
Python极客之家34 分钟前
基于深度学习的刑事案件智能分类系统
人工智能·python·深度学习·机器学习·数据挖掘·毕业设计·情感分析
一棵开花的树,枝芽无限靠近你40 分钟前
【Pytorch】(一)使用 PyTorch 进行深度学习:60 分钟速成
人工智能·pytorch·深度学习
540_5401 小时前
ADVANCE Day44
人工智能·python·深度学习
童话名剑1 小时前
目标检测指标与优化(吴恩达深度学习笔记)
深度学习·目标检测·非极大值抑制·交并比
中國龍在廣州1 小时前
“物理AI”吹响号角
大数据·人工智能·深度学习·算法·机器人·机器人学习
Coding茶水间1 小时前
基于深度学习的车型识别系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
人工智能·深度学习·机器学习
AI人工智能+1 小时前
智能表格识别技术融合深度学习与计算机视觉,突破传统表格数字化瓶颈
深度学习·ocr·表格识别
Clarence Liu1 小时前
LLM (1) 如何下载模型(mac)
人工智能·后端·深度学习