CenterPoint：基于中心点的 3D 目标检测与跟踪框架

在自动驾驶等依赖强 3D 感知能力的领域中，3D 目标检测与跟踪是核心技术之一。传统基于锚框（Anchor-based）的 3D 检测方法，在处理旋转目标、稀疏点云等问题时面临诸多挑战。由 UT Austin 团队提出的 CenterPoint 框架，创新性地采用基于中心点（Center-based）的表示方法，将 3D 目标建模为点而非边界框，极大简化了检测与跟踪流程，同时在性能上实现了突破性提升。

原文链接：https://arxiv.org/pdf/2006.11275

代码链接：https://github.com/tianweiy/CenterPoint

沐小含持续分享前沿算法论文，欢迎关注...

一、论文背景与核心问题

1.1 3D 目标检测的核心挑战

与研究成熟的 2D 图像检测不同，基于点云的 3D 目标检测面临三大核心难题：

点云稀疏性：3D 空间中多数区域缺乏测量数据，导致特征提取困难；
目标姿态无约束：3D 目标不存在固定朝向，轴对齐边界框难以适配旋转目标；
目标尺度与形状多样性：交通场景中，自行车、公交车、行人等目标的尺度、形状差异极大，传统锚框模板难以全覆盖。

1.2 传统方法的局限性

传统 Anchor-based 方法通过预定义不同尺度、朝向的锚框匹配目标，但存在明显缺陷：

为覆盖所有可能朝向，需设计大量锚框，导致计算量激增且假阳性率升高；
依赖 2D IoU 进行锚框分配，需为不同类别、数据集手动调整正负样本阈值，适配性差；
旋转目标的轴对齐锚框匹配精度低，尤其在车辆转弯等安全关键场景中性能下降显著（如图 1 所示）。

1.3 核心创新思路

CenterPoint 的核心突破在于目标表示方法的转变：将 3D 目标表示为中心点，而非边界框。这一转变带来三大优势：

中心点无内在朝向，天然具备旋转不变性，大幅缩减检测器搜索空间；
简化跟踪任务：目标跟踪转化为时空维度上的中心点匹配，无需复杂运动模型；
基于中心点的特征提取可设计高效的两阶段精炼模块，兼顾精度与速度。

注：上图展示直道行驶（上）与左转（下）场景的检测效果。Anchor-based 方法在目标旋转时难以适配轴对齐框，而 CenterPoint 通过旋转不变的中心点实现精准检测。

二、相关工作综述

2.1 2D 目标检测的启发

2D 检测方法可分为三类：

两阶段方法（RCNN 系列）：生成候选框后分类精炼；
单阶段方法（YOLO、SSD）：直接预测类别特异性边界框；
中心点方法（CenterNet、CenterTrack）：检测目标中心点并回归尺寸等属性，无需候选框。

CenterPoint 认为，中心点表示更适合 3D 场景，因为它规避了 2D 边界框与 3D 目标的适配矛盾。

2.2 3D 目标检测的演进

3D 检测方法的核心差异在于输入编码器（点云特征提取方式）：

体素化方法：VoxelNet 将点云划分为体素，通过 PointNet 提取体素特征；SECOND 简化 VoxelNet 并加速稀疏卷积；
柱体化方法：PointPillars 将体素替换为柱体（Pillar），提升骨干网络效率；
投票机制：VoteNet 通过点特征投票聚类检测目标；
两阶段方法：PointRCNN、PV-RCNN 等借鉴 2D RCNN，通过 RoIPool/Align 聚合 3D 区域特征，但计算成本高昂。

CenterPoint 的创新在于输出表示层，与任何 3D 编码器（VoxelNet/PointPillars）兼容，可直接提升现有模型性能。

2.3 3D 目标跟踪方法

传统 3D 跟踪依赖：

2D 跟踪算法直接迁移（忽略 3D 运动信息）；
基于 3D 卡尔曼滤波的专用跟踪器（如 AB3D），虽能利用 3D 运动，但计算复杂。

CenterPoint 借鉴 CenterTrack 的思路，通过预测目标速度实现简单高效的中心点匹配跟踪，性能与效率远超传统方法。

三、预备知识铺垫

3.1 2D CenterNet 原理回顾

CenterNet 将 2D 检测转化为关键点估计：

输入图像经骨干网络生成热图（Heatmap），每个类别对应一个通道；
热图局部最大值对应目标中心点，置信度与峰值强度成正比；
同时回归尺寸图（Size Map）和偏移量（Offset），补偿下采样导致的量化误差；
无需 NMS（非极大值抑制），直接提取峰值点作为检测结果。

3.2 3D 目标检测定义

给定无序点云（为 3D 坐标，为反射率），3D 检测目标是预测鸟瞰图（BEV）中的 3D 边界框集合，每个边界框定义为：其中：

：目标接地平面中心坐标；
：3D 尺寸（宽、长、高）；
：偏航角（Yaw），表示目标朝向。

3.3 3D 骨干网络输出

主流 3D 骨干网络（VoxelNet/PointPillars）的输出为鸟瞰图特征图，其中：

：特征图宽 / 长（与体素 / 柱体分辨率、下采样步长相关）；
：特征通道数。

传统方法在该特征图上预定义锚框，而 CenterPoint 直接预测中心点及属性。

四、CenterPoint 核心框架详解

CenterPoint 采用两阶段架构：第一阶段检测中心点并回归目标属性；第二阶段利用边界框表面特征精炼预测结果。整体流程如图 2 所示。

注：输入点云经 3D 骨干网络生成鸟瞰图特征；第一阶段通过 2D CNN 检测中心点并回归 3D 边界框；第二阶段提取边界框表面中心点特征，经 MLP 精炼置信度与边界框。

4.1 第一阶段：中心点检测与属性回归

第一阶段的目标是从鸟瞰图特征图中检测目标中心点，并回归完整的 3D 边界框属性。所有输出均为密集预测（Dense Prediction）。

4.1.1 中心热图头（Center Heatmap Head）

输出：K 通道热图（K 为类别数），每个通道对应一类目标的中心点概率分布；
训练目标 ：在标注边界框的 3D 中心点投影位置，生成 2D 高斯核作为正样本区域。为解决点云鸟瞰图中目标稀疏导致的监督信号不足问题，高斯半径设置为：，其中（最小高斯半径），为 CornerNet 定义的半径函数，为目标在鸟瞰图中的面积；
损失函数：采用 Focal Loss，缓解正负样本不平衡。

4.1.2 回归头（Regression Heads）

为每个中心点回归以下属性（每个属性对应独立的回归头）：

子体素位置精炼 ：补偿体素化和下采样导致的量化误差；
地面高度 ：目标中心点距离地面的高度，补充鸟瞰图投影丢失的高程信息；
3D 尺寸 ：回归对数尺寸（），更好适配不同尺度目标；
偏航角 ：将角度转化为连续值回归，避免角度离散化带来的不连续性；
损失函数：所有回归任务采用 L1 损失，仅在真实中心点位置进行监督。

4.1.3 速度头与跟踪（Velocity Head and Tracking）

为实现跟踪，额外回归目标在鸟瞰图中的 2D 速度（表示相邻帧间的位置偏移）：

训练输入：当前帧与前一帧的鸟瞰图特征图；
训练目标：真实目标在两帧间的位置差；
损失函数：L1 损失。

第一阶段仅依赖中心点特征，可能因局部特征不足导致定位误差。第二阶段通过提取边界框表面特征，进一步精炼预测结果，且保持轻量化设计。

4.2.1 特征提取

从第一阶段预测的 3D 边界框的 5 个关键位置提取特征：

边界框的 4 个侧面中心点 + 1 个中心中心点（顶部和底部中心点在鸟瞰图中投影与中心重合，故不重复提取）；
特征提取方式：从第一阶段的鸟瞰图特征图 M 中，通过双线性插值获取上述 5 个位置的特征，拼接后输入 MLP。

4.2.2 精炼任务

置信度分数精炼 ：预测类别无关的置信度，目标值由 3D IoU 引导：，其中为第一阶段预测框与真实框的 3D IoU。最终置信度为第一阶段类别概率与第二阶段 IoU 置信度的几何平均：，损失函数采用二元交叉熵（BCE）；
边界框精炼：预测第一阶段边界框的修正量，损失函数为 L1 损失。

4.3 网络架构细节

第一阶段：所有输出共享 1 个 3×3 卷积层（含 BatchNorm 和 ReLU），之后每个输出分支独立使用 2 个 3×3 卷积（含 BatchNorm 和 ReLU）；
第二阶段：共享 2 层 MLP（含 BatchNorm、ReLU 和 Dropout（dropout rate=0.3）），后续分为两个分支：3 层全连接层用于置信度预测，3 层全连接层用于边界框修正。

五、3D 目标跟踪算法

基于第一阶段预测的中心点和速度，CenterPoint 采用贪心最近点匹配策略实现跟踪，算法流程如 Algorithm 1 所示：

5.1 输入与输出

输入：前一帧跟踪结果（含中心点、速度、类别、边界框属性、跟踪 ID、未激活帧数）、当前帧检测结果（按置信度降序排列）；
输出：当前帧跟踪结果。

5.2 核心步骤

代价计算 ：计算当前帧检测点与前一帧跟踪点的距离代价（即当前检测点与前一跟踪点经速度预测后的位置距离）；
贪心匹配 ：按检测置信度顺序，为每个检测点匹配距离最近且满足类别距离阈值的跟踪点，匹配成功则更新跟踪状态（未激活帧数置 0）；
新跟踪初始化：未匹配的检测点作为新跟踪目标，分配新 ID；
未匹配跟踪处理：未匹配的跟踪点，若未激活帧数未超过阈值 A，则按其历史速度更新位置并保留跟踪，否则删除。

5.3 关键优势

无需复杂的 3D 卡尔曼滤波或状态估计，仅依赖中心点和速度预测，计算开销极小（1ms / 帧）；
类别特异性距离阈值适配不同类别目标的运动特性，匹配精度更高。

六、实验设计与结果分析

6.1 实验设置

6.1.1 数据集

Waymo Open Dataset：798 个训练序列、202 个验证序列，64 线激光雷达（180k 点 / 帧），评估指标包括 3D mAP、mAPH（带朝向权重的 mAP）、MOTA（多目标跟踪精度）、MOTP（多目标跟踪精度）；
nuScenes Dataset：1000 个驾驶序列（700/150/150 训练 / 验证 / 测试），32 线激光雷达（30k 点 / 帧），评估指标包括 mAP、NDS（nuScenes 检测分数，加权 mAP 与位置、尺度等属性精度）、AMOTA（跟踪指标）、PKL（规划导向指标）。

6.1.2 模型变体

CenterPoint-Voxel：基于 VoxelNet 编码器；
CenterPoint-Pillar：基于 PointPillars 编码器。

6.1.3 训练与推理细节

优化器：AdamW（nuScenes）/SGD（Waymo）；
数据增强：随机翻转、缩放、旋转，nuScenes 数据集额外采用地面真值采样（复制粘贴标注框内点云）；
推理速度：Waymo 上 11 FPS，nuScenes 上 16 FPS（近实时）。

6.2 核心实验结果

6.2.1 3D 检测性能（Waymo 测试集）

表 1 展示 Waymo 测试集上的 3D 检测结果，CenterPoint 在 Level 2（仅含 1 个激光雷达点的目标）场景中表现突出：

车辆检测：71.8 mAPH（超此前最佳方法 7.1%）；
行人检测：66.4 mAPH（超此前最佳方法 10.6%）。

6.2.2 3D 检测性能（nuScenes 测试集）

表 2 显示，CenterPoint 在 nuScenes 测试集上以显著优势领先：

mAP 达到 58.0（超 CBGS 5.2%）；
NDS 达到 65.5（超 CBGS 2.2%）；
PKL（规划导向指标）达到 0.69（最低，表明对下游自动驾驶规划任务的提升最大）。

6.2.3 3D 跟踪性能

Waymo 测试集（表 3）：Level 2 场景中，车辆 MOTA 59.4（超 AB3D 19.3%），行人 MOTA 56.6（超 AB3D 18.9%）；
nuScenes 测试集（表 4）：AMOTA 达到 63.8（超此前最佳方法 8.8%），同时 False Negatives（漏检）和 ID Switches（ID 切换）显著降低。

Waymo 测试集 3D 跟踪性能对比：

nuScenes 测试集 3D 跟踪性能对比：

6.3 消融实验分析

6.3.1 中心点 vs 锚框表示

表 5 和表 6 对比了相同编码器下，Center-based 与 Anchor-based 方法的性能：

Waymo 验证集：VoxelNet 编码器下，Center-based 方法平均 mAPH 提升 4.3%；PointPillars 编码器下提升 4.5%；可视化结果如图 3 所示。
nuScenes 验证集：mAP 提升 3.8-4.1%，NDS 提升 1.1-1.8%。

关键原因在于中心点表示对旋转目标和尺度变化的适应性更强（表 7、表 8）：

旋转目标（偏航角 30°-45°）：Center-based 方法行人检测 mAPH 提升 9.2%；
小尺寸目标：Center-based 方法行人检测 mAPH 提升 8.9%。

6.3.2 单阶段 vs 两阶段

表 9 显示，两阶段精炼仅增加 6-7ms 计算开销，却能带来显著精度提升：

VoxelNet 编码器：车辆检测 mAPH 从 66.5 提升至 68.3，行人从 62.7 提升至 65.3；
相比 PV-RCNN 的密集采样（6×6 点），CenterPoint 的 5 个关键位置采样性能相当，但速度更快。

6.3.3 跟踪方法对比

表 12 显示，CenterPoint 的速度基中心点匹配跟踪显著优于卡尔曼滤波：

相同检测器下，AMOTA 提升 3.7%；
跟踪时间从 73ms 降至 1ms，总推理时间减少 50% 以上。

七、结论与展望

7.1 核心贡献总结

表示创新：首次将 3D 目标表示为中心点，解决了旋转目标适配、锚框设计复杂等核心问题；
高效架构：两阶段设计兼顾精度与速度，第二阶段轻量化特征提取避免了传统两阶段方法的高计算成本；
端到端跟踪：通过速度预测实现简单高效的中心点匹配跟踪，无需独立运动模型；
性能突破：在 Waymo 和 nuScenes 两大权威数据集上，检测与跟踪性能均达到 SOTA，且保持近实时推理速度。

7.2 局限性与未来方向

对极稀疏点云（如 nuScenes 的 32 线激光雷达），两阶段精炼提升有限，需优化特征提取方式；
小目标（如交通锥）的检测精度仍有提升空间，可结合多尺度特征融合；
目前仅支持激光雷达输入，未来可扩展至多模态（激光雷达 + 摄像头）融合场景。

7.3 实际应用价值

CenterPoint 的简单性、高效性和高性能使其成为自动驾驶感知系统的理想选择。其开源代码已被广泛应用于工业界和学术界，且在 NeurIPS 2020 nuScenes 检测挑战赛中，前 4 名中有 3 支队伍采用了 CenterPoint 框架，证明了其强大的泛化能力和工程实用性。

附录：关键补充信息

A. 实现细节

代码基于 CBGS 开源框架，适配 VoxelNet 和 PointPillars 编码器；
nuScenes 数据集采用帧合并策略（将非标注帧点云合并至标注帧），提升点云密度和速度估计精度；
测试时增强（TTA）：翻转测试、点云旋转（±6.25° 等），进一步提升性能。

B. 挑战赛优化策略

在 nuScenes 检测挑战赛中，CenterPoint 通过以下策略实现性能突破：

结合 PointPainting（激光雷达点云与图像实例分割融合）；
多模型集成（5 个不同网格尺寸的模型）；
过滤空点预测框；最终实现 68.2 mAP 和 71.7 NDS，远超 2019 年冠军 CBGS。