P2PNet：基于点的密集人群计数与定位

在人群分析领域，人群计数是一项基础性任务，但仅提供人数统计结果已难以满足下游高级任务（如人群跟踪、异常检测、行为预测等）的实际需求。传统方法要么依赖密度图回归，无法提供个体精确位置；要么通过伪边界框进行检测，存在标注繁琐、后处理复杂且易出错等问题。为此，腾讯优图实验室等机构的研究者提出了一种纯粹的点基框架（Purely Point-Based Framework），并设计了对应的 Point-to-Point Network（P2PNet），实现了人群计数与个体定位的联合优化。

原文链接：2107.12746

代码链接：https://github.com/TencentYoutuResearch/CrowdCounting-P2PNet

沐小含持续分享前沿算法论文，欢迎关注...

一、研究背景与动机

1.1 人群分析的核心痛点

人群分析的核心需求已从 "单纯计数" 向 "精细定位 + 计数" 演进。下游任务（如人群跟踪、异常行为检测）不仅需要知道人群数量，更需要获取每个个体的精确位置。然而，现有方法存在明显缺陷：

基于密度图的方法：通过回归像素级密度图并求和得到人数，无法提供个体位置信息，且密度图的中间表示与人类标注逻辑（点标注）不一致，存在固有偏差。
基于定位的方法：
- 基于边界框的方法：需要密集的边界框标注（耗时耗力），或通过点标注生成伪边界框（不准确），后续 NMS 等后处理易导致漏检。
- 基于点 /blob 的方法：在拥挤区域难以处理近距离个体的重复预测或分割问题，鲁棒性不足。

1.2 研究动机

为解决上述问题，研究者提出：

采用纯点基表示：直接以人体头部中心点作为标注和预测目标，既符合人类标注习惯（标注成本低），又能提供精确位置信息。
设计端到端框架：绕过密度图、伪边界框等中间步骤，直接预测点集，简化流程并减少误差传播。
提出更全面的评估指标：现有指标要么只关注计数误差，要么忽略人群密度差异或重复预测惩罚，需设计同时衡量定位精度与计数准确性的指标。

二、核心贡献

论文的核心贡献可概括为三点，贯穿 "框架 - 指标 - 模型" 三个层面：

提出纯点基联合框架：首次明确以点标注为学习目标，直接输出个体中心点集，同时完成计数与定位，适配下游任务需求。
设计密度归一化平均精度（nAP）：解决了现有指标的缺陷，能同时评估定位误差、计数准确性，并考虑人群密度差异。
提出 P2PNet 模型：作为点基框架的具体实现，通过匈牙利算法实现预测点与真实点的一对一匹配，避免重复或漏检，取得了 SOTA 性能。

三、核心技术详解

3.1 纯点基框架定义

该框架的核心思想是：输入图像 + 点标注（头部中心点）→ 输出预测点集（含坐标与置信度），无需任何中间表示。

形式化定义

给定图像含个个体，真实点集为，其中为第个个体的头部中心点。
模型输出预测点集和对应的置信度集，M 为预测个体数。
目标：使预测点与真实点的距离尽可能小（定位准），且与尽可能接近（计数准）。

框架优势

标注成本低：仅需标注头部中心点，无需边界框或密度图。
定位精度高：直接输出点坐标，无中间表示的误差传递。
适配下游任务：提供的个体位置可直接用于跟踪、行为分析等。

3.2 评估指标：密度归一化平均精度（nAP）

现有指标的不足：

图像级 MAE/MSE：仅衡量计数误差，忽略定位精度。
局部误差指标（如 Patch-level MAE）：定位评估粗糙。
基于 AP 的指标：未考虑人群密度差异（拥挤区域允许更大定位误差），或缺乏重复预测惩罚。

nAP 的设计逻辑

nAP 基于目标检测中的 AP（Precision-Recall 曲线下面积），但引入了密度归一化 和一对一匹配策略，同时解决定位、计数、密度差异三大问题。

计算步骤

预测点排序：将所有预测点按置信度从高到低排序。
一对一匹配：按排序顺序，依次判断每个预测点是否为真阳性（TP）：
- 仅当预测点能匹配到未被匹配过的真实点，且满足密度归一化距离准则时，标记为 TP；否则为假阳性（FP）。
密度归一化距离准则避免拥挤区域（真实点密集）与稀疏区域采用相同距离阈值，定义匹配准则：

其中：
- ：预测点与真实点的欧氏距离。
- ：真实点到其个最近邻真实点的平均距离（衡量局部密度，k=3 为默认值）。
- ：定位精度阈值（=0.5 为常用值，代表预测点需落在真实点的 "局部密度半径" 的 50% 以内）。

阈值设置与整体评估

不同对应不同定位精度要求：
- =0.05：严格定位（仅允许极小误差）。
- =0.25：高精度定位。
- =0.5：满足多数实际场景的定位需求。
整体性能：计算从 0.05 到 0.50（步长 0.05）的 nAP 平均值，记为 nAP[0.05:0.05:0.50]。

示意图

（注：黄色圆为范围，蓝色圆为 =0.5 阈值，红色圆为 =0.25 阈值。=0.5 时，该区域内多数像素的最近真实点为，符合实际定位需求。）

3.3 关键问题：预测点与真实点的匹配策略

纯点基框架的核心挑战是：如何为预测点分配真实目标 （即确定哪个预测点对应哪个真实点），因为预测点数量与真实点数量可能不相等，且存在重复或漏检风险。

三种匹配策略对比

1 对 N 匹配：为每个真实点分配最近的预测点。缺陷：多个真实点可能匹配到同一个预测点，导致计数低估（如图 3 (a)）。
N 对 1 匹配：为每个预测点分配最近的真实点。缺陷：多个预测点可能匹配到同一个真实点，导致计数高估（如图 3 (b)）。
一对一匹配：通过匈牙利算法找到预测点与真实点的最优双向匹配，未匹配的预测点标记为负样本。优势：无计数偏差，且无需手动设置负样本阈值（如图 3 (c)）。

（注：绿色为真实点，红色为正样本预测点，灰色为负样本预测点。一对一匹配避免了高估 / 低估问题。）

匹配成本矩阵

为了让高置信度的预测点优先匹配到真实点，匹配成本不仅考虑距离，还引入置信度权重：

其中：

：距离权重（平衡距离与置信度的影响，默认值 5e-2）。
：预测点的置信度（高置信度降低匹配成本，优先被匹配）。

3.4 P2PNet 模型细节

P2PNet 是纯点基框架的具体实现，分为特征提取、点提案生成、一对一匹配、损失函数四大模块。

网络架构

特征提取 backbone：
- 基于 VGG-16 bn 的前 13 层卷积层，提取深层特征。
- 引入上采样（ nearest neighbor interpolation，缩放因子 2）和横向连接（lateral connection），融合浅层特征，提升特征图分辨率（最终步长 =8），为精准定位提供细粒度特征。
- 最终输出特征图（尺寸 H/8 × W/8）。
点提案生成（双分支预测） ：基于设计两个并行分支，分别预测点坐标和置信度：
- 参考点设置 ：特征图的每个像素对应输入图像的补丁（如 =8 时，对应 8×8 像素补丁）。每个补丁内设置个参考点（默认 =4，拥挤数据集如 UCF-QNRF 设为 8），参考点布局分为两种：
  - 中心布局（Center Layout）：参考点为补丁中心。
  - 网格布局（Grid Layout）：参考点均匀分布在补丁内（如图 4），更适合拥挤区域。
- 坐标回归分支：预测每个参考点的偏移量，最终预测点坐标计算为：
  
  其中 =100 为归一化项，用于缩放偏移量。
- 置信度分类分支：通过 Softmax 输出每个预测点的置信度（判断该点是否为真实头部中心）。

（注：s=2 时，K=4 的两种布局。网格布局覆盖更全面，适合拥挤场景。）

一对一匹配：训练阶段，通过匈牙利算法对预测点提案与真实点进行一对一匹配，确定正样本（匹配成功的预测点）和负样本（未匹配的预测点）。
损失函数：联合分类损失（置信度优化）和回归损失（坐标优化）：
- 分类损失（交叉熵）：
  
  其中为匹配后的索引，=0.5 为负样本权重（平衡正负样本）。
- 回归损失（欧氏距离）：
- 总损失：
  
  其中 =2e−4 为回归损失权重。

四、实验验证

4.1 实验设置

数据集

采用 5 个主流人群计数数据集，覆盖不同密度、分辨率场景：

ShanghaiTech PartA（高密度）、PartB（低密度）。
UCF CC 50（场景复杂，人数波动大）。
UCF-QNRF（人数范围广，挑战性强）。
NWPU-Crowd（大规模高密度，含边界框标注用于定位评估）。

数据增强与超参数

数据增强：随机缩放（0.7-1.3 倍）、随机裁剪（128×128 补丁）、随机翻转（概率 0.5）。
超参数：批量大小 8，Adam 优化器（backbone 学习率 1e-5，其他层 1e-4），参考点 K=4（UCF-QNRF 设为 8）。

4.2 主要实验结果

1. nAP 指标性能

表 1 展示了 P2PNet 在不同下的 nAP 表现：

关键结论：

δ=0.5 时，所有数据集的 nAP 均超过 83%，部分达 94%，证明定位精度优异。
即使 δ=0.25（高精度要求），nAP 仍超过 55%，鲁棒性强。
δ=0.05 时性能较低，因标注偏差和极端定位要求导致，属正常现象。

2. 计数性能（MAE/MSE）

与 SOTA 方法对比，P2PNet 在多数数据集上取得最优结果：表 2 主流数据集计数性能对比（MAE/MSE）

表 3 NWPU-Crowd 数据集计数性能对比

关键结论：

SHTech PartA（高密度）：MAE=52.74，比第二名 ADSCNet 降低 4.8%，MSE 降低 12.9%。
SHTech PartB（低密度）：MAE=6.25，为所有方法最优。
UCF CC 50：MAE=172.72，显著优于其他方法。
NWPU-Crowd：MAE [O]=77.44，比第二名 DM-Count 降低 12.4%，整体计数性能 SOTA。

3. 定位性能（NWPU-Crowd 数据集）

利用 NWPU-Crowd 的边界框标注，对比 F1-Measure/Precision/Recall：

P2PNet 的 F1-Measure 达 71.2%，为所有对比方法最优，证明定位精度领先。

4. 定性结果

（注：白色数字为真实计数 / 预测计数，红色点为预测点，绿色点为真实点。P2PNet 在稀疏、中等、高密度场景下均能精准匹配真实点，计数误差小。）

4.3 消融实验

1. 参考点布局影响

表 4 参考点布局对比（SHTech PartA）

网格布局更优，因密集分布的参考点能更好覆盖拥挤区域的头部。

2. 特征图步长影响

表 5 特征图步长对比（SHTech PartA）

步长 s=8 时计数性能最优（平衡分辨率与计算量）。
步长 s=4 时 nAP 最高（特征图分辨率最高，定位更准），证明高分辨率特征对定位的重要性。

3. 参考点数量 K 影响

表 6 参考点数量对比（SHTech PartA）

=4 时性能最优，过大导致负样本增多，性能下降；=1 时仍能保持 SOTA 水平，证明框架鲁棒性。

五、讨论与展望

5.1 优势与创新点总结

范式创新：首次提出纯点基框架，彻底抛弃密度图、伪边界框等中间表示，直接建模 "点标注→点预测"，符合人类认知与下游任务需求。
指标创新：nAP 指标同时解决定位、计数、密度差异三大问题，为联合任务提供统一评估标准。
方法创新：一对一匹配策略（匈牙利算法）避免计数偏差，双分支预测与特征融合保证定位与计数精度。

5.2 局限性与未来方向

未明确处理尺度变化：虽然点表示本身与尺度无关，但极端尺度（超大 / 超小头部）仍可能影响性能，可结合多尺度特征融合（如 FPN）进一步优化。
灰色图像 / 老照片适应性不足：需增加更多此类数据训练，提升模型泛化能力。
实时性优化：当前模型基于 VGG-16，可替换为轻量级 backbone（如 MobileNet），适配实时场景。

5.3 应用场景

P2PNet 的定位 + 计数能力可直接应用于：

公共安全：人群密集度监测、异常行为检测（如踩踏预警）。
智能交通：路口行人计数与跟踪。
商业分析：商场、景区人流量统计与热点区域定位。

六、总结

本文提出的纯点基框架与 P2PNet 模型，重新定义了人群计数与定位任务的解决范式。通过直接预测头部中心点集，避免了中间表示的误差；nAP 指标提供了全面的性能评估；一对一匹配策略保证了计数与定位的准确性。实验证明，P2PNet 在多个数据集上取得 SOTA 性能，既满足了下游任务对个体位置的需求，又保持了计数精度，为人群分析领域提供了新的研究思路。未来，结合多尺度融合、轻量级架构等优化，该方法有望在更多实际场景中落地应用。