P2PNet:基于点的密集人群计数与定位

在人群分析领域,人群计数是一项基础性任务,但仅提供人数统计结果已难以满足下游高级任务(如人群跟踪、异常检测、行为预测等)的实际需求。传统方法要么依赖密度图回归,无法提供个体精确位置;要么通过伪边界框进行检测,存在标注繁琐、后处理复杂且易出错等问题。为此,腾讯优图实验室等机构的研究者提出了一种纯粹的点基框架(Purely Point-Based Framework),并设计了对应的 Point-to-Point Network(P2PNet),实现了人群计数与个体定位的联合优化。

原文链接:2107.12746

代码链接:https://github.com/TencentYoutuResearch/CrowdCounting-P2PNet

沐小含持续分享前沿算法论文,欢迎关注...

一、研究背景与动机

1.1 人群分析的核心痛点

人群分析的核心需求已从 "单纯计数" 向 "精细定位 + 计数" 演进。下游任务(如人群跟踪、异常行为检测)不仅需要知道人群数量,更需要获取每个个体的精确位置。然而,现有方法存在明显缺陷:

  • 基于密度图的方法:通过回归像素级密度图并求和得到人数,无法提供个体位置信息,且密度图的中间表示与人类标注逻辑(点标注)不一致,存在固有偏差。
  • 基于定位的方法
    • 基于边界框的方法:需要密集的边界框标注(耗时耗力),或通过点标注生成伪边界框(不准确),后续 NMS 等后处理易导致漏检。
    • 基于点 /blob 的方法:在拥挤区域难以处理近距离个体的重复预测或分割问题,鲁棒性不足。

1.2 研究动机

为解决上述问题,研究者提出:

  1. 采用纯点基表示:直接以人体头部中心点作为标注和预测目标,既符合人类标注习惯(标注成本低),又能提供精确位置信息。
  2. 设计端到端框架:绕过密度图、伪边界框等中间步骤,直接预测点集,简化流程并减少误差传播。
  3. 提出更全面的评估指标:现有指标要么只关注计数误差,要么忽略人群密度差异或重复预测惩罚,需设计同时衡量定位精度与计数准确性的指标。

二、核心贡献

论文的核心贡献可概括为三点,贯穿 "框架 - 指标 - 模型" 三个层面:

  1. 提出纯点基联合框架:首次明确以点标注为学习目标,直接输出个体中心点集,同时完成计数与定位,适配下游任务需求。
  2. 设计密度归一化平均精度(nAP):解决了现有指标的缺陷,能同时评估定位误差、计数准确性,并考虑人群密度差异。
  3. 提出 P2PNet 模型:作为点基框架的具体实现,通过匈牙利算法实现预测点与真实点的一对一匹配,避免重复或漏检,取得了 SOTA 性能。

三、核心技术详解

3.1 纯点基框架定义

该框架的核心思想是:输入图像 + 点标注(头部中心点)→ 输出预测点集(含坐标与置信度),无需任何中间表示。

形式化定义
  • 给定图像含 个个体,真实点集为 ,其中 为第 个个体的头部中心点。
  • 模型 输出预测点集 和对应的置信度集 ,M 为预测个体数。
  • 目标:使预测点与真实点的距离尽可能小(定位准),且 尽可能接近(计数准)。
框架优势
  • 标注成本低:仅需标注头部中心点,无需边界框或密度图。
  • 定位精度高:直接输出点坐标,无中间表示的误差传递。
  • 适配下游任务:提供的个体位置可直接用于跟踪、行为分析等。

3.2 评估指标:密度归一化平均精度(nAP)

现有指标的不足:

  • 图像级 MAE/MSE:仅衡量计数误差,忽略定位精度。
  • 局部误差指标(如 Patch-level MAE):定位评估粗糙。
  • 基于 AP 的指标:未考虑人群密度差异(拥挤区域允许更大定位误差),或缺乏重复预测惩罚。
nAP 的设计逻辑

nAP 基于目标检测中的 AP(Precision-Recall 曲线下面积),但引入了密度归一化一对一匹配策略,同时解决定位、计数、密度差异三大问题。

计算步骤
  1. 预测点排序:将所有预测点 按置信度 从高到低排序。

  2. 一对一匹配:按排序顺序,依次判断每个预测点是否为真阳性(TP):

    • 仅当预测点 能匹配到未被匹配过的真实点 ,且满足密度归一化距离准则时,标记为 TP;否则为假阳性(FP)。
  3. 密度归一化距离准则避免拥挤区域(真实点密集)与稀疏区域采用相同距离阈值,定义匹配准则:


    其中:

    • :预测点与真实点的欧氏距离。
    • :真实点 到其 个最近邻真实点的平均距离(衡量局部密度,k=3 为默认值)。
    • :定位精度阈值(=0.5 为常用值,代表预测点需落在真实点的 "局部密度半径" 的 50% 以内)。
阈值设置与整体评估
  • 不同 对应不同定位精度要求:
    • =0.05:严格定位(仅允许极小误差)。
    • =0.25:高精度定位。
    • =0.5:满足多数实际场景的定位需求。
  • 整体性能:计算 从 0.05 到 0.50(步长 0.05)的 nAP 平均值,记为 nAP[0.05:0.05:0.50]。
示意图

(注:黄色圆为 范围,蓝色圆为 =0.5 阈值,红色圆为 =0.25 阈值。=0.5 时,该区域内多数像素的最近真实点为 ,符合实际定位需求。)

3.3 关键问题:预测点与真实点的匹配策略

纯点基框架的核心挑战是:如何为预测点分配真实目标 (即确定哪个预测点对应哪个真实点),因为预测点数量 与真实点数量 可能不相等,且存在重复或漏检风险。

三种匹配策略对比
  1. 1 对 N 匹配:为每个真实点分配最近的预测点。缺陷:多个真实点可能匹配到同一个预测点,导致计数低估(如图 3 (a))。
  2. N 对 1 匹配:为每个预测点分配最近的真实点。缺陷:多个预测点可能匹配到同一个真实点,导致计数高估(如图 3 (b))。
  3. 一对一匹配:通过匈牙利算法找到预测点与真实点的最优双向匹配,未匹配的预测点标记为负样本。优势:无计数偏差,且无需手动设置负样本阈值(如图 3 (c))。

(注:绿色为真实点,红色为正样本预测点,灰色为负样本预测点。一对一匹配避免了高估 / 低估问题。)

匹配成本矩阵

为了让高置信度的预测点优先匹配到真实点,匹配成本不仅考虑距离,还引入置信度权重:

其中:

  • :距离权重(平衡距离与置信度的影响,默认值 5e-2)。
  • :预测点的置信度(高置信度降低匹配成本,优先被匹配)。

3.4 P2PNet 模型细节

P2PNet 是纯点基框架的具体实现,分为特征提取、点提案生成、一对一匹配、损失函数四大模块。

网络架构
  • 特征提取 backbone

    • 基于 VGG-16 bn 的前 13 层卷积层,提取深层特征。
    • 引入上采样( nearest neighbor interpolation,缩放因子 2)和横向连接(lateral connection),融合浅层特征,提升特征图分辨率(最终步长 =8),为精准定位提供细粒度特征。
    • 最终输出特征图 (尺寸 H/8 × W/8)。
  • 点提案生成(双分支预测) :基于 设计两个并行分支,分别预测点坐标和置信度:

    • 参考点设置 :特征图 的每个像素对应输入图像的 补丁(如 =8 时,对应 8×8 像素补丁)。每个补丁内设置 个参考点(默认 =4,拥挤数据集如 UCF-QNRF 设为 8),参考点布局分为两种:

      • 中心布局(Center Layout):参考点为补丁中心。
      • 网格布局(Grid Layout):参考点均匀分布在补丁内(如图 4),更适合拥挤区域。
    • 坐标回归分支:预测每个参考点的偏移量 ,最终预测点坐标计算为:


      其中 =100 为归一化项,用于缩放偏移量。

    • 置信度分类分支:通过 Softmax 输出每个预测点的置信度 (判断该点是否为真实头部中心)。

(注:s=2 时,K=4 的两种布局。网格布局覆盖更全面,适合拥挤场景。)

  1. 一对一匹配:训练阶段,通过匈牙利算法对预测点提案与真实点进行一对一匹配,确定正样本(匹配成功的预测点)和负样本(未匹配的预测点)。

  2. 损失函数:联合分类损失(置信度优化)和回归损失(坐标优化):

    • 分类损失(交叉熵)


      其中 为匹配后的索引,=0.5 为负样本权重(平衡正负样本)。

    • 回归损失(欧氏距离)

    • 总损失


      其中 =2e−4 为回归损失权重。

四、实验验证

4.1 实验设置

数据集

采用 5 个主流人群计数数据集,覆盖不同密度、分辨率场景:

  • ShanghaiTech PartA(高密度)、PartB(低密度)。
  • UCF CC 50(场景复杂,人数波动大)。
  • UCF-QNRF(人数范围广,挑战性强)。
  • NWPU-Crowd(大规模高密度,含边界框标注用于定位评估)。
数据增强与超参数
  • 数据增强:随机缩放(0.7-1.3 倍)、随机裁剪(128×128 补丁)、随机翻转(概率 0.5)。
  • 超参数:批量大小 8,Adam 优化器(backbone 学习率 1e-5,其他层 1e-4),参考点 K=4(UCF-QNRF 设为 8)。

4.2 主要实验结果

1. nAP 指标性能

表 1 展示了 P2PNet 在不同 下的 nAP 表现:

关键结论:

  • δ=0.5 时,所有数据集的 nAP 均超过 83%,部分达 94%,证明定位精度优异。
  • 即使 δ=0.25(高精度要求),nAP 仍超过 55%,鲁棒性强。
  • δ=0.05 时性能较低,因标注偏差和极端定位要求导致,属正常现象。
2. 计数性能(MAE/MSE)

与 SOTA 方法对比,P2PNet 在多数数据集上取得最优结果:表 2 主流数据集计数性能对比(MAE/MSE)

表 3 NWPU-Crowd 数据集计数性能对比

关键结论:

  • SHTech PartA(高密度):MAE=52.74,比第二名 ADSCNet 降低 4.8%,MSE 降低 12.9%。
  • SHTech PartB(低密度):MAE=6.25,为所有方法最优。
  • UCF CC 50:MAE=172.72,显著优于其他方法。
  • NWPU-Crowd:MAE [O]=77.44,比第二名 DM-Count 降低 12.4%,整体计数性能 SOTA。
3. 定位性能(NWPU-Crowd 数据集)

利用 NWPU-Crowd 的边界框标注,对比 F1-Measure/Precision/Recall:

P2PNet 的 F1-Measure 达 71.2%,为所有对比方法最优,证明定位精度领先。

4. 定性结果

(注:白色数字为真实计数 / 预测计数,红色点为预测点,绿色点为真实点。P2PNet 在稀疏、中等、高密度场景下均能精准匹配真实点,计数误差小。)

4.3 消融实验

1. 参考点布局影响

表 4 参考点布局对比(SHTech PartA)

网格布局更优,因密集分布的参考点能更好覆盖拥挤区域的头部。

2. 特征图步长影响

表 5 特征图步长对比(SHTech PartA)

  • 步长 s=8 时计数性能最优(平衡分辨率与计算量)。
  • 步长 s=4 时 nAP 最高(特征图分辨率最高,定位更准),证明高分辨率特征对定位的重要性。
3. 参考点数量 K 影响

表 6 参考点数量 对比(SHTech PartA)

=4 时性能最优, 过大导致负样本增多,性能下降;=1 时仍能保持 SOTA 水平,证明框架鲁棒性。

五、讨论与展望

5.1 优势与创新点总结

  1. 范式创新:首次提出纯点基框架,彻底抛弃密度图、伪边界框等中间表示,直接建模 "点标注→点预测",符合人类认知与下游任务需求。
  2. 指标创新:nAP 指标同时解决定位、计数、密度差异三大问题,为联合任务提供统一评估标准。
  3. 方法创新:一对一匹配策略(匈牙利算法)避免计数偏差,双分支预测与特征融合保证定位与计数精度。

5.2 局限性与未来方向

  1. 未明确处理尺度变化:虽然点表示本身与尺度无关,但极端尺度(超大 / 超小头部)仍可能影响性能,可结合多尺度特征融合(如 FPN)进一步优化。
  2. 灰色图像 / 老照片适应性不足:需增加更多此类数据训练,提升模型泛化能力。
  3. 实时性优化:当前模型基于 VGG-16,可替换为轻量级 backbone(如 MobileNet),适配实时场景。

5.3 应用场景

P2PNet 的定位 + 计数能力可直接应用于:

  • 公共安全:人群密集度监测、异常行为检测(如踩踏预警)。
  • 智能交通:路口行人计数与跟踪。
  • 商业分析:商场、景区人流量统计与热点区域定位。

六、总结

本文提出的纯点基框架与 P2PNet 模型,重新定义了人群计数与定位任务的解决范式。通过直接预测头部中心点集,避免了中间表示的误差;nAP 指标提供了全面的性能评估;一对一匹配策略保证了计数与定位的准确性。实验证明,P2PNet 在多个数据集上取得 SOTA 性能,既满足了下游任务对个体位置的需求,又保持了计数精度,为人群分析领域提供了新的研究思路。未来,结合多尺度融合、轻量级架构等优化,该方法有望在更多实际场景中落地应用。

相关推荐
智算菩萨1 小时前
【How Far Are We From AGI】6 AGI的进化论——从胚胎到终极的三级跃迁与发展路线图
论文阅读·人工智能·深度学习·ai·agi
梦醒过后说珍重2 小时前
【超分实战】拒绝灾难性遗忘!记一次原生4K医疗影像(SurgiSR4K)的模型微调踩坑实录
深度学习
智算菩萨2 小时前
【How Far Are We From AGI】7 AGI的七重奏——从实验室到现实世界的应用图景与文明展望
论文阅读·人工智能·ai·agi·感知
梦醒过后说珍重2 小时前
拒绝显存溢出!手把手教你写原生 4K 超分辨率数据集 (SurgiSR4K) 的 PyTorch DataLoader
深度学习
junjunzai1233 小时前
设置cuda:1但是cuda:0在波动的问题
人工智能·深度学习
智算菩萨4 小时前
多目标超启发式算法系统文献综述:人机协同大语言模型方法论深度精读
论文阅读·人工智能·深度学习·ai·多目标·综述
简单光学5 小时前
ISDM: 基于生成扩散模型的散射介质成像重建技术报告
深度学习·扩散模型·散射成像·分数匹配·随机微分方程
IT阳晨。5 小时前
PyTorch深度学习实践
人工智能·pytorch·深度学习
智算菩萨5 小时前
【How Far Are We From AGI】5 AGI的“道德罗盘“——价值对齐的技术路径与伦理边界
论文阅读·人工智能·深度学习·ai·接口·agi·对齐技术
Sakuraba Ema5 小时前
从零理解 MoE(Mixture of Experts)混合专家:原理、数学、稀疏性、专家数量影响与手写 PyTorch 实现
人工智能·pytorch·python·深度学习·数学·llm·latex