基于deepSeekV4Pro(thinking)研究pointPillar的历程

PointPillars 项目技术栈全解析

项目名称 : PointPillars: Fast Encoders for Object Detection from Point Clouds
论文 : arXiv:1812.05784
作者参考实现 : zhulf0804/PointPillars
Benchmark: KITTI 3D Object Detection

项目概述
编程语言与构建系统
深度学习框架
[CUDA/C++ 自定义算子](#CUDA/C++ 自定义算子)
数值计算与加速库
计算机视觉库
3D可视化工具
实验管理与监控
数据处理与序列化
模型架构详解
损失函数设计
数据增强策略
训练策略与超参数
评估与推理
数据集 (KITTI)
项目依赖清单
文件结构与职责

附录

[A. 自定义 CUDA 算子的 autograd 封装](#A. 自定义 CUDA 算子的 autograd 封装)
[B. 高效的 Mask 操作](#B. 高效的 Mask 操作)
[C. Bird's Eye View (BEV) 投影](#C. Bird’s Eye View (BEV) 投影)
[D. 方向分类](#D. 方向分类)
[E. 常见问题深入解答 (Q&A)](#E. 常见问题深入解答 (Q&A))
- [E.1 点云数据基础](#E.1 点云数据基础)
- [E.2 点装饰与数据增强](#E.2 点装饰与数据增强)
- [E.3 Pillar 体素化](#E.3 Pillar 体素化)
- [E.4 PillarEncoder 特征编码](#E.4 PillarEncoder 特征编码)
- [E.5 训练与推理](#E.5 训练与推理)
- [E.6 体素化输出与编码器的关系](#E.6 体素化输出与编码器的关系)
- [E.7 检测头与后处理](#E.7 检测头与后处理)
- [E.8 锚框与角度深入](#E.8 锚框与角度深入)
- [E.9 训练细节补充](#E.9 训练细节补充)

1. 项目概述

PointPillars 是用于 激光雷达点云 3D 目标检测 的深度学习模型。其核心创新在于：

将不规则的点云数据编码为规则的 柱体（Pillars） 表示，从而可以使用标准的 2D 卷积神经网络 进行处理。
避免了复杂的 3D 卷积，推理速度极快（在 KITTI 上可达 62 FPS）。
无需安装 spconv、mmdet 或 mmdet3d 等重型依赖。

本仓库是一个 纯 PyTorch 实现，具有以下特点：

轻量级: 只实现了 PointPillars 一种检测网络，代码易于阅读和修改。
自包含 : 自定义 CUDA 算子通过 torch.utils.cpp_extension 编译，无需额外安装稀疏卷积库。
可部署 : 支持导出 ONNX & TensorRT（feature/deployment 分支）。
可打包 : 支持作为 Python 包安装（pip install .）。

检测性能 (KITTI val set, 3D-BBox mAP)

类别	Easy	Moderate	Hard
Car	86.65	76.74	74.17
Pedestrian	51.46	47.94	43.80
Cyclist	81.87	63.66	60.91

2. 编程语言与构建系统

技术	用途	说明
Python 3	主要编程语言	全部训练/评估/预处理逻辑
C++ / CUDA C	自定义算子	体素化（Voxelization）、3D IoU 计算、NMS
setuptools	构建系统	`setup.py` 负责编译 CUDA 扩展并打包 Python 包
PyTorch JIT (cpp_extension)	CUDA 编译	使用 `torch.utils.cpp_extension.BuildExtension` 和 `CUDAExtension` 编译自定义 CUDA 算子

构建流程

bash 复制代码

cd PointPillars/
pip install -r requirements.txt
python setup.py build_ext --inplace   # 编译 CUDA 扩展
pip install .                          # 安装 pointpillars 包

setup.py 中定义了两个 CUDA 扩展：

pointpillars.ops.voxel_op --- 体素化算子（CPU + CUDA）
pointpillars.ops.iou3d_op --- 3D IoU / NMS 算子（CUDA only）

3. 深度学习框架

PyTorch 1.8.1+cu111

组件	用途
`torch.nn.Module`	所有模型组件的基类
`torch.nn.Conv1d`	Pillar 特征编码（逐点卷积）
`torch.nn.Conv2d`	Backbone 2D 卷积
`torch.nn.ConvTranspose2d`	Neck 上采样（转置卷积）
`torch.nn.BatchNorm1d/2d`	批归一化
`torch.nn.ReLU`	激活函数
`torch.optim.AdamW`	优化器
`torch.optim.lr_scheduler.OneCycleLR`	学习率调度器
`torch.utils.data.Dataset / DataLoader`	数据集加载
`torch.utils.tensorboard.SummaryWriter`	训练日志记录
`torch.autograd.Function`	自定义 CUDA 算子的 Python 封装
`torch.nn.SmoothL1Loss`	回归损失
`torch.nn.CrossEntropyLoss`	方向分类损失

4. CUDA/C++ 自定义算子

这是项目的核心技术亮点之一。所有 CUDA 代码修改自 mmdetection3d。

4.1 体素化 (Voxelization)

文件位置 : pointpillars/ops/voxelization/

文件	语言	职责
`voxelization.h`	C++ Header	函数声明，支持 CPU / CUDA / 非确定性 CUDA 三种模式
`voxelization.cpp`	C++	PyTorch 绑定，根据 `WITH_CUDA` 宏分发到 CPU 或 GPU 实现
`voxelization_cpu.cpp`	C++	CPU 体素化实现
`voxelization_cuda.cu`	CUDA C	GPU 体素化实现（hard_voxelize）

核心算法 : 将原始点云 (N, 4) 转换为固定大小的体素网格：

输入: 点云坐标 (x, y, z, reflectance)
输出: voxels (M, max_points, 4), coordinates (M, 3), num_points_per_voxel (M,)
最多保留 max_voxels=16000/40000 个体素（训练/测试），每个体素最多 max_points=32 个点

Python 封装 : pointpillars/ops/voxel_module.py

python 复制代码

class _Voxelization(torch.autograd.Function):
    # 调用 C++ 的 hard_voxelize 函数

4.2 3D IoU / NMS

文件位置 : pointpillars/ops/iou3d/

文件	语言	职责
`iou3d.cpp`	C++	PyTorch 绑定
`iou3d_kernel.cu`	CUDA C	BEV (Bird's Eye View) 视角下的重叠/IoU 计算、GPU NMS

提供的功能:

boxes_overlap_bev_gpu --- BEV 视角下两个 bbox 集合的重叠矩阵计算
boxes_iou_bev_gpu --- BEV 视角下 IoU 矩阵计算
nms_gpu / nms_normal_gpu --- GPU 加速的非极大值抑制

Python 封装 : pointpillars/ops/iou3d_module.py

python 复制代码

def boxes_overlap_bev(boxes_a, boxes_b): ...
def boxes_iou_bev(boxes_a, boxes_b): ...
def nms_cuda(boxes, scores, thresh, ...): ...

5. 数值计算与加速库

库	版本	用途
NumPy	1.19.5	基础数值计算、矩阵运算、坐标变换
Numba	0.48.0	JIT 编译加速数据增强中的碰撞检测循环
PyTorch CUDA	1.8.1+cu111	GPU 加速训练和推理

Numba 的特定用途

在 data_aug.py 中，@numba.jit(nopython=True) 装饰器用于加速以下计算密集型循环：

object_noise_core --- 对每个 GT bbox 尝试添加平移/旋转噪声，并进行碰撞检测
box_collision_test --- BEV 视角下的矩形碰撞检测（纯 Python 循环在 GPU 不可用时的备选方案）

6. 计算机视觉库

库	版本	用途
OpenCV (cv2)	4.5.5.62	图像读取、2D 检测框可视化、图像预处理

主要用于：

pre_process_kitti.py --- 读取 KITTI 图像获取 image_shape，用于过滤图像视野外的点云
misc/vis_data_gt.py --- 在图像上绘制 2D/3D 检测框
test.py --- 推理结果可视化

7. 3D 可视化工具

库	版本	用途
Open3D	0.14.1	点云可视化、3D 检测框渲染

可视化模块

文件 : pointpillars/utils/vis_o3d.py

npy2ply() --- 将 NumPy 点云转换为 Open3D PointCloud 对象
bbox_obj() --- 从 8 个角点创建 3D 边界框线集（LineSet）
vis_core() --- 使用预设的相机视角（viewpoint.json）进行点云可视化
vis_pc() --- 高层封装：同时可视化点云 + 3D 检测框 + 类别标签
vis_img_3d() --- 在 2D 图像上投影并绘制 3D 边界框

8. 实验管理与监控

工具	用途
TensorBoard	训练过程可视化
tqdm	进度条显示

训练日志

在 train.py 中，使用 torch.utils.tensorboard.SummaryWriter 记录以下指标：

loss/cls_loss --- 分类损失（Focal Loss）
loss/reg_loss --- 回归损失（Smooth L1 Loss）
loss/dir_cls_loss --- 方向分类损失
loss/total_loss --- 总损失
lr --- 学习率变化
momentum --- 动量变化

日志保存路径: {saved_path}/summary/

预训练模型: pretrained/epoch_160.pth

9. 数据处理与序列化

库/格式	用途
Pickle	数据集元信息序列化（`.pkl` 文件）
PyYAML	配置文件解析（6.0）
NumPy .bin	点云数据存储格式

数据预处理 (`pre_process_kitti.py`)

对 KITTI 原始数据进行预处理，生成以下文件：

复制代码

kitti/
├── kitti_infos_train.pkl      # 训练集元信息
├── kitti_infos_val.pkl        # 验证集元信息
├── kitti_infos_trainval.pkl   # 训练+验证集元信息
├── kitti_infos_test.pkl       # 测试集元信息
├── kitti_dbinfos_train.pkl    # GT 数据库（用于数据增强的 DB Sampling）
├── kitti_gt_database/         # 约 19700 个 .bin 文件（每个 GT bbox 内的点云）
└── training/velodyne_reduced/ # 过滤掉图像视野外点后的点云

10. 模型架构详解

整体数据流

复制代码

原始点云 (N, 4)
     │
     ▼
┌─────────────────────────────────────────────┐
│  PillarLayer (Voxelization)                  │
│  - 将点云划分为 Pillars (柱体)               │
│  - 输出: pillars (P, 32, 4)                  │
└─────────────────────────────────────────────┘
     │
     ▼
┌─────────────────────────────────────────────┐
│  PillarEncoder                               │
│  - 计算点相对于柱体中心的偏移                  │
│  - 特征增强: (P, 32, 4) → (P, 32, 9)        │
│  - Conv1d + BN + ReLU → (P, 64, 32)         │
│  - Max Pooling → (P, 64)                     │
│  - Scatter → 伪图像 (B, 64, 496, 432)        │
└─────────────────────────────────────────────┘
     │
     ▼
┌─────────────────────────────────────────────┐
│  Backbone (类似 PointNet 的 2D CNN)          │
│  Block1: Conv2d(64→64, s=2) + 3×Conv(64)    │
│          → (B, 64, 248, 216)                 │
│  Block2: Conv2d(64→128, s=2) + 5×Conv(128)  │
│          → (B, 128, 124, 108)                │
│  Block3: Conv2d(128→256, s=2) + 5×Conv(256) │
│          → (B, 256, 62, 54)                  │
└─────────────────────────────────────────────┘
     │
     ▼
┌─────────────────────────────────────────────┐
│  Neck (FPN-like 特征金字塔)                  │
│  - Deconv1: 256→128, s=1 → (B, 128, 248, 216)│
│  - Deconv2: 128→128, s=2 → (B, 128, 248, 216)│
│  - Deconv3: 64→128, s=4  → (B, 128, 248, 216)│
│  - Concat → (B, 384, 248, 216)               │
└─────────────────────────────────────────────┘
     │
     ▼
┌─────────────────────────────────────────────┐
│  Head (检测头)                               │
│  - cls_conv: 384 → n_anchors × n_classes     │
│  - reg_conv: 384 → n_anchors × 7             │
│  - dir_conv: 384 → n_anchors × 2             │
└─────────────────────────────────────────────┘
     │
     ▼
  检测结果 (类别, 7-DOF 框, 方向)

关键参数

参数	值	说明
`voxel_size`	`[0.16, 0.16, 4]` m	Pillar 的 x, y, z 尺寸
`point_cloud_range`	`[0, -39.68, -3, 69.12, 39.68, 1]` m	点云有效范围 (X_min, Y_min, Z_min, X_max, Y_max, Z_max)
`max_num_points`	32	每个 Pillar 最多保留的点数
`max_voxels`	16000 (train) / 40000 (test)	最多保留的 Pillar 数量
特征图尺寸	`(496, 432)`	H = 79.36/0.16 ≈ 496, W = 69.12/0.16 ≈ 432

锚框设计 (Anchors)

定义了 3 类锚框（对应不同物体类别和尺寸），每类 2 个旋转角度（0°, 90°），共 3 × 2 = 6 个锚框：

类别	锚框尺寸 (w, l, h) m	Z 范围 m
Car	(1.6, 3.9, 1.56)	$-1.78, -1.78$
Pedestrian	(0.6, 0.8, 1.73)	$-0.6, -0.6$
Cyclist	(0.6, 1.76, 1.73)	$-0.6, -0.6$

旋转角度: [0, 1.57] 弧度 (0° 和 90°)

锚框分配策略 (Anchor Assigner)

类别	pos_iou_thr	neg_iou_thr	min_iou_thr
Car	0.6	0.45	0.45
Pedestrian	0.5	0.35	0.35
Cyclist	0.5	0.35	0.35

解码公式 (Anchor → BBox)

复制代码

x = dx * da + anchor_x
y = dy * da + anchor_y
z = dz * ha + anchor_z + ha/2
w = anchor_w * exp(dw)
l = anchor_l * exp(dl)
h = anchor_h * exp(dh)
θ = anchor_θ + dθ

其中 da = sqrt(anchor_w² + anchor_l²)

初始化策略

Conv2d : kaiming_normal_ (fan_out, relu)
ConvTranspose2d : kaiming_normal_ (fan_out, relu)
Head Conv2d : normal_ (mean=0, std=0.01)，分类偏置使用 prior_prob=0.01 初始化

11. 损失函数设计

文件 : pointpillars/loss/loss.py

总损失

L t o t a l = λ c l s ⋅ L c l s + λ r e g ⋅ L r e g + λ d i r ⋅ L d i r \mathcal{L}{total} = \lambda{cls} \cdot \mathcal{L}{cls} + \lambda{reg} \cdot \mathcal{L}{reg} + \lambda{dir} \cdot \mathcal{L}_{dir} Ltotal=λcls⋅Lcls+λreg⋅Lreg+λdir⋅Ldir

组件	权重	公式
分类损失	`cls_w=1.0`	Focal Loss (`α=0.25`, `γ=2.0`)
回归损失	`reg_w=2.0`	Smooth L1 Loss (`β=1/9`)
方向损失	`dir_w=0.2`	Cross Entropy Loss (二分类: 方向是否 > 0)

Focal Loss 实现细节

python 复制代码

FL = -α_t * (1 - p_t)^γ * log(p_t)
# 其中:
#   y == 1 → p_t = p (sigmoid 输出)
#   y == 0 → p_t = 1 - p

对所有 nclasses 个类别独立计算 Sigmoid + Focal Loss（多标签风格，而非 Softmax）。

回归目标 (7-DOF)

预测相对于锚框的偏移量 (dx, dy, dz, dw, dl, dh, dθ)，仅对正样本（batched_bbox_labels >= 0）计算回归损失。

12. 数据增强策略

文件 : pointpillars/dataset/data_aug.py

训练时采用以下增强策略（按顺序执行）：

12.1 DB Sampling (数据库采样)

目的: 解决类别不均衡问题
策略: 从 GT 数据库中采样，使每帧中 Car=15, Pedestrian=10, Cyclist=10
碰撞检测 : 使用 BEV 视角的矩形碰撞检测 (box_collision_test)
实现: 将被采样物体的点云变换到当前场景中，替换原有被遮挡的点

12.2 Object Noise (目标级噪声)

平移噪声 : 标准差 [0.25, 0.25, 0.25] m
旋转噪声 : 范围 [-0.157, 0.157] 弧度 (约 ±9°)
尝试次数: 100 次（选择第一个通过碰撞检测的噪声配置）
使用 Numba JIT 加速 嵌套循环

12.3 Random Flip (随机水平翻转)

概率: 50%
变换: x → -x, θ → -θ（同时修改点云坐标和 bbox 角度）

12.4 Global Rot/Scale/Trans (全局变换)

旋转 : 范围 [-0.785, 0.785] 弧度 (约 ±45°)
缩放 : 范围 [0.95, 1.05]
平移 : 标准差 [0, 0, 0]（默认不做全局平移）

12.5 Point Range Filter

移除 [0, -39.68, -3, 69.12, 39.68, 1] 范围外的点

12.6 Object Range Filter

移除范围外的 GT bbox

12.7 Point Shuffle

随机打乱点云顺序（配合 max_voxels 的随机丢弃策略）

13. 训练策略与超参数

文件 : train.py

优化器

参数	值
优化器	AdamW
初始学习率	`2e-3` (默认 `init_lr`)
β₁, β₂	`0.95`, `0.99`
Weight Decay	`0.01`

学习率调度器

参数	值
调度器	OneCycleLR
最大学习率	`init_lr × 10 = 2e-2`
预热比例 (`pct_start`)	`0.4` (前 40% 步数预热)
退火策略	`cos` (余弦退火)
动量范围	`base_momentum=0.85` → `max_momentum=0.95`
总步数	`len(train_dataloader) × max_epoch`

训练超参数

参数	默认值	说明
`max_epoch`	160	训练轮数
`batch_size`	6	批次大小
`num_workers`	4	数据加载线程数
`nclasses`	3	类别数 (Car, Pedestrian, Cyclist)
`no_cuda`	False	是否禁用 GPU

随机种子

通过 setup_seed(seed=0) 固定：

random.seed
np.random.seed
torch.manual_seed
torch.cuda.manual_seed_all
torch.backends.cudnn.deterministic = True

14. 评估与推理

评估流程 (`evaluate.py`)

在验证集上推理，收集所有检测结果
与 GT 标签进行匹配，计算 2D-BBox / BEV / 3D-BBox / AOS 的 mAP
使用 41 点插值法计算 PR 曲线下的平均精度
按 Easy / Moderate / Hard 三个难度级别分别报告

推理流程 (`test.py`)

支持单帧点云推理：

bash 复制代码

python test.py --pc_path xxx.bin --ckpt pretrained/epoch_160.pth

后处理步骤：

NMS 前过滤 (nms_pre=100)
BEV IoU 阈值 NMS (nms_thr=0.01)
分数阈值过滤 (score_thr=0.1)
保留 Top-K (max_num=50)
图像范围过滤 (可选)
LiDAR 范围过滤

15. 数据集 (KITTI)

数据来源

文件	大小	内容
`data_object_velodyne.zip`	29 GB	Velodyne HDL-64E 点云
`data_object_image_2.zip`	12 GB	左彩色相机图像
`data_object_calib.zip`	16 MB	标定文件
`data_object_label_2.zip`	5 MB	标注标签

数据集划分 (ImageSets)

集合	样本数
train	3712
val	3769
trainval	7481
test	7518

坐标系

相机坐标系: x=右, y=下, z=前
LiDAR 坐标系: x=前, y=左, z=上
通过标定矩阵 Tr_velo_to_cam 和 R0_rect 进行坐标转换

16. 项目依赖清单

复制代码

# 深度学习
torch==1.8.1+cu111          # PyTorch (CUDA 11.1)

# 数值计算
numpy==1.19.5               # 基础数值计算
numba==0.48.0               # JIT 编译加速

# 计算机视觉
opencv_python==4.5.5.62     # 图像处理

# 3D 可视化
open3d==0.14.1              # 点云可视化

# 工具
PyYAML==6.0                 # YAML 解析
setuptools==58.0.4          # 包管理 & CUDA 编译
tensorboard                 # 训练可视化
tqdm==4.62.3               # 进度条

环境要求

CUDA: 11.1+
C++ 编译器: 支持 C++14 的 GCC/MSVC
GPU: 支持 CUDA 的 NVIDIA GPU（推荐显存 ≥ 4GB）

17. 文件结构与职责

复制代码

PointPillars-main/
│
├── train.py                          # 训练主脚本
├── evaluate.py                       # 评估脚本 (mAP 计算)
├── test.py                           # 单帧推理脚本
├── pre_process_kitti.py              # KITTI 数据预处理
├── setup.py                          # CUDA 扩展编译 & 包安装
├── requirements.txt                  # Python 依赖
├── README.md                         # 项目说明
├── LICENSE                           # 许可证
│
├── pretrained/
│   └── epoch_160.pth                 # 预训练模型权重
│
├── figures/
│   ├── pc_pred_000134.png            # 点云预测可视化
│   ├── img_3dbbox_000134.png         # 图像 3D 检测框可视化
│   └── pytorch_trt.png              # PyTorch vs TensorRT 对比图
│
├── misc/
│   ├── log.md                        # 开发日志
│   └── vis_data_gt.py                # GT 数据可视化脚本
│
├── pointpillars/                     # 核心 Python 包
│   ├── __init__.py
│   │
│   ├── dataset/                      # 数据集模块
│   │   ├── __init__.py
│   │   ├── kitti.py                  # KITTI Dataset 类
│   │   ├── dataloader.py             # DataLoader 封装
│   │   ├── data_aug.py               # 数据增强 (Numba JIT 加速)
│   │   ├── ImageSets/                # 数据集划分
│   │   │   ├── train.txt
│   │   │   ├── val.txt
│   │   │   ├── trainval.txt
│   │   │   └── test.txt
│   │   └── demo_data/                # 演示数据
│   │       ├── test/000002.txt
│   │       └── val/000134.txt, 000134_gt.txt
│   │
│   ├── model/                        # 模型模块
│   │   ├── __init__.py
│   │   ├── pointpillars.py           # 完整模型定义
│   │   │   ├── PillarLayer           # Pillar 体素化层
│   │   │   ├── PillarEncoder         # Pillar 特征编码器
│   │   │   ├── Backbone              # 2D CNN 主干网络
│   │   │   ├── Neck                  # FPN 特征金字塔
│   │   │   ├── Head                  # 检测头
│   │   │   └── PointPillars          # 顶层模型封装
│   │   └── anchors.py                # 锚框生成 & 编码/解码
│   │       ├── Anchors               # 锚框生成器
│   │       ├── anchor_target         # 锚框-真值匹配
│   │       ├── anchors2bboxes        # 偏移量 → 检测框
│   │       └── bboxes2deltas         # 检测框 → 偏移量
│   │
│   ├── loss/                         # 损失函数
│   │   ├── __init__.py
│   │   └── loss.py                   # Focal Loss + Smooth L1 + Dir Loss
│   │
│   ├── ops/                          # 自定义 CUDA 算子
│   │   ├── __init__.py
│   │   ├── voxel_module.py           # Voxelization Python 封装
│   │   ├── iou3d_module.py           # 3D IoU / NMS Python 封装
│   │   ├── voxelization/             # 体素化 C++/CUDA 实现
│   │   │   ├── voxelization.h        # C 头文件
│   │   │   ├── voxelization.cpp      # PyTorch 绑定
│   │   │   ├── voxelization_cpu.cpp  # CPU 实现
│   │   │   └── voxelization_cuda.cu  # CUDA GPU 实现
│   │   └── iou3d/                    # 3D IoU C++/CUDA 实现
│   │       ├── iou3d.cpp             # PyTorch 绑定
│   │       └── iou3d_kernel.cu       # CUDA 核函数
│   │
│   └── utils/                        # 工具函数
│       ├── __init__.py
│       ├── process.py                # 坐标变换、碰撞检测、NMS、评估
│       ├── io.py                     # 文件读写 (pickle, bin, calib, label)
│       ├── vis_o3d.py                # Open3D 可视化
│       └── viewpoint.json            # 预设相机视角
│
└── docs/
    └── tech_stack_analysis.md        # 本文档

附录: 关键设计模式与技巧

A. 自定义 CUDA 算子的 autograd 封装

python 复制代码

class _Voxelization(torch.autograd.Function):
    @staticmethod
    def forward(ctx, points, voxel_size, coors_range, ...):
        # 调用 C++/CUDA 的 hard_voxelize
        voxel_num = hard_voxelize(points, voxels, coors, ...)
        return voxels[:voxel_num], coors[:voxel_num], ...

class Voxelization(nn.Module):
    def forward(self, points):
        return _Voxelization.apply(points, self.voxel_size, ...)

B. 高效的 Mask 操作

在 PillarEncoder 中，使用广播和 mask 实现零填充的优雅方式：

python 复制代码

voxel_ids = torch.arange(0, num_points).to(device)
mask = voxel_ids[:, None] < npoints_per_pillar[None, :]  # (num_points, num_pillars)
features *= mask[:, :, None]  # 将多余的点特征置零

C. Bird's Eye View (BEV) 投影

所有 IoU 计算和 NMS 都在 BEV 视角下进行（忽略 Z 轴），将 3D 问题简化为 2D 问题：

复制代码

3D BBox (x, y, z, w, l, h, θ) → BEV BBox (x, y, w, l, θ)

D. 方向分类

为处理角度周期性（0° vs 180° 的歧义），对每个锚框预测一个二分类方向标签：

如果 GT 方向角 > 0 → 正方向
如果 GT 方向角 < 0 → 反方向（加 π）

附录 E: 常见问题深入解答 (Q&A)

以下内容来自对项目各知识点的深入提问与解答，涵盖点云数据、Pillar 体素化、特征编码、训练策略等核心概念。

E.1 点云数据基础

Q: 点云为何是 `(x, y, z, reflectance)`？reflectance 是什么？

点云每个点包含 4 个维度：

维度	含义	来源
`x`	前向距离	激光束飞行时间 + 发射角度
`y`	侧向距离	激光束飞行时间 + 发射角度
`z`	高度	激光束飞行时间 + 发射角度
`reflectance`	反射率/强度	物体表面材质对激光的反射能力

Reflectance（反射率）的物理本质：LiDAR 发射激光到物体表面，一部分光被吸收，一部分反射回来。传感器接收到的反射能量强度就是 reflectance（也叫 intensity）。

不同材质的反射率不同，可提供语义信号：

物体/材质	反射率特征	检测帮助
车牌/反光标识	极高	识别为车辆
车漆/金属表面	中高	车辆检测
人体/衣物	中等	行人检测
路面/柏油	低	可忽略（地面）

Q: KITTI 坐标系各个轴的方向是怎样的？

复制代码

LiDAR 坐标系（点云）:
  x → 前方（车道方向，远近）
  y → 左侧（左右方向）
  z → 上方（高度）

相机坐标系（图像）:
  z → 前方
  x → 右侧
  y → 下方

point_cloud_range = [0, -39.68, -3, 69.12, 39.68, 1]
  x: 0 ~ 69.12m  (前方，车道方向)
  y: -39.68 ~ 39.68m (左右)
  z: -3 ~ 1m (高度)

注意：LiDAR 坐标系和相机坐标系方向不同，通过标定矩阵 Tr_velo_to_cam 和 R0_rect 进行转换。

E.2 点装饰 (Point Decoration) 与数据增强

Q: 4D → 9D 是数据增强吗？

不是。 4D → 9D 是点装饰 (Point Decoration)，属于特征工程，不是数据增强。

	数据增强 (Data Augmentation)	点装饰 (Point Decoration)
目的	增加训练样本多样性	丰富每个点的特征表达
是否改变标签	是（GT 框也跟着变换）	否
何时执行	每次训练迭代随机应用	每次前向传播都执行
例子	翻转、旋转、缩放、DB采样	算偏移量 x_c, y_c, z_c, x_p, y_p

执行顺序：先数据增强（改变坐标）→ 再点装饰（算偏移）→ 送入网络。

Q: 9 维的构成分别是什么？

复制代码

原始点:  (x, y, z, reflectance)     ← LiDAR 直接输出的 4 维
         +
装饰特征: (x_c, y_c, z_c)          ← 该点到 Pillar 内所有点均值的距离（质心偏移）
         + (x_p, y_p)               ← 该点到 Pillar 几何中心的偏移
         =
增强点:  (x, y, z, r, x_c, y_c, z_c, x_p, y_p)   ← 共 9 维

特征	含义	维度	作用
`x_c, y_c, z_c`	到 Pillar 内点质心的偏移	3D	刻画局部几何形状（平面？斜面？）
`x_p, y_p`	到 Pillar 网格中心的偏移	2D	刻画点在柱体内的精确位置

Q: 为什么 `x_p, y_p` 是二维的，没有 `z_p`？

因为 Pillar 在 z 方向不做划分。 Pillar 只在 x-y 平面分格（每格 0.16m × 0.16m），z 方向整根柱子一通到底，没有固定的 z 中心，所以 z_p 没有意义。这也是 PointPillars 相比 VoxelNet 的核心优势------无需手动调节 z 方向的 bin 大小。

Q: `x_c, y_c, z_c` 是质心的偏移吗？

是的。 代码实现：

python 复制代码

centroid = torch.sum(pillars[:, :, :3], dim=1) / npoints_per_pillar[:, None, None]
offset_pt_center = pillars[:, :, :3] - centroid  # = (x_c, y_c, z_c)

E.3 Pillar 体素化 (Voxelization)

Q: Pillar 是聚类生成的么？

不是。Pillar 是规则网格划分，不是聚类。

	规则网格 (PointPillars)	聚类 (如 DBSCAN)
划分方式	按固定间距画格子	按点之间的密度/距离自动分组
形状	每个 Pillar 完全等大 (0.16m×0.16m)	形状和大小不规则
计算速度	极快（直接算网格坐标）	慢（需要搜索邻域）
确定性	确定的	依赖参数和初始化

Q: 0.16m × 0.16m 网格是基于什么划分的？

这是人为设定的超参数。 不是从点云数据推导出来的。

依据：

Velodyne HDL-64E 在 50m 处水平点间距约 0.1-0.3m，0.16m 与此相近
论文实验了 0.12² 到 0.28²，0.16² 是速度和精度的甜点
更小 → 更精确但更慢；更大 → 更快但粗糙

Q: `voxel_size` 和 `point_cloud_range` 是什么意思？

参数	含义	例值
`voxel_size[0]`	每个 Pillar 的 x 方向宽度	0.16 m
`voxel_size[1]`	每个 Pillar 的 y 方向宽度	0.16 m
`voxel_size[2]`	每个 Pillar 的 z 方向高度	4 m（等于整个 z 范围）
`point_cloud_range[0]`	感兴趣区域 x 最小值	0 m
`point_cloud_range[1]`	感兴趣区域 y 最小值	-39.68 m
`point_cloud_range[2]`	感兴趣区域 z 最小值	-3 m
`point_cloud_range[3]`	感兴趣区域 x 最大值	69.12 m
`point_cloud_range[4]`	感兴趣区域 y 最大值	39.68 m
`point_cloud_range[5]`	感兴趣区域 z 最大值	1 m

注意：voxel_size[2] = 4 = 1 - (-3) --- 这意味着 z 方向整个范围就是一个 Pillar 的高度，体现了 Pillar 不做 z 方向分格。

Q: Pillar 索引计算详解

python 复制代码

pillar_x_index = floor((x - x_min) / voxel_size_x)
pillar_y_index = floor((y - y_min) / voxel_size_y)

示例：点 (5.23, -2.10, 0.50, 0.35)：

复制代码

x_index = floor((5.23 - 0) / 0.16)       = floor(32.6875) = 32
y_index = floor((-2.10 - (-39.68)) / 0.16) = floor(234.875) = 234
→ Pillar (32, 234)，位于车前 5.2m, 偏左 2.16m

z 坐标完全不参与 Pillar 归属判断，只影响该点在 Pillar 内部的位置。

Q: `Pillar (32, 234)` 中 32 和 234 代表什么？

32 = x 方向第 32 列，234 = y 方向第 234 行。两个数字合起来唯一确定了点云中某个点属于 432×496 网格中的哪个格子。

Q: `voxels (M, max_points, 4)`, `coordinates (M, 3)`, `num_points_per_voxel (M,)` 分别是什么？

输出	形状	含义
`voxels`	`(M, 32, 4)`	打包后的点云数据，每个 Pillar 固定 32 个槽位，不足补零
`coordinates`	`(M, 3)`	每个 Pillar 的网格坐标 `(x_index, y_index, 0)`
`num_points_per_voxel`	`(M,)`	每个 Pillar 实际有多少个真实点

三者协同工作：voxels 是数据，coordinates 是位置，num_points_per_voxel 区分真实点和填充零。

Q: `max_voxels=16000/40000` 是什么意思？

16000 是训练时最多保留的 Pillar 数量，40000 是推理时最多保留的数量。这不是每帧固定输入值，而是上限。

python 复制代码

voxel_num = hard_voxelize(...)        # 返回实际 Pillar 数
voxels_out = voxels[:voxel_num]      # 只取有效的部分

场景	实际 Pillar 数	模型输入
空旷高速	~3000	(3000, 32, 4)
城市街道	~8000	(8000, 32, 4)
拥堵路口	>16000	(16000, 32, 4) ← 截断

训练时为节省显存（batch_size=6）且提供正则化效果；推理时 batch_size=1，放宽限制追求最高召回率。

Q: 随机丢弃是丢 Pillar 内的点还是整个 Pillar？

两个层面都有：

层面	参数	丢什么
A	`max_voxels=16000`	整个 Pillar（含所有点）
B	`max_points=32`	Pillar 内多余的点

丢弃整个 Pillar 相当于随机遮挡，类似 Dropout 效果，增强泛化能力。

Q: Point Shuffle（点云随机打乱）为什么必要？

打乱的是全局所有点的顺序。如果不打乱：

复制代码

Velodyne 按扫描顺序输出：
  先扫前方 → 再扫侧面 → 最后扫后方

不打乱 → 后方 Pillar 永远排在后面 → 当 max_voxels 截断时总是被丢弃
→ 模型偏向学习前方，对后方检测能力差

打乱后确保所有空间位置都有被保留的机会，模型公平学习全方向。

E.4 PillarEncoder 特征编码

Q: PillarEncoder 的作用是什么？为何处理变长序列？

作用：将不规则的变长 3D 点云压缩成每个 Pillar 一个 64 维特征向量，然后按空间位置散回 2D 画布。

变长的根源：batch 内不同帧的非空 Pillar 数不同，concat 后总 Pillar 数浮动（如 42000~50000）。

为何能处理变长：Conv1d 对每个 Pillar 独立做卷积，Pillar 之间互不影响，天然支持变长序列。

完整流程：

复制代码

输入: (M, 32, 4)           ← M 个 Pillar，可变
  Step 1: 点装饰 → (M, 32, 9)
  Step 2: Mask（填充点特征归零）
  Step 3: Conv1d(9→64) + BN + ReLU → (M, 64, 32)
  Step 4: Max Pooling（跨 32 点）→ (M, 64)
  Step 5: Scatter → (B, 64, 496, 432)  ← 固定尺寸伪图像

Q: Step 2 Mask 是什么意思？为什么要做？

问题：Pillar 内点数不足 32 时，剩余槽位被填了 (0,0,0,0)，但 Step 1 的质心偏移计算让这些假点产生了非零的偏移量。

解决方案：

python 复制代码

mask = voxel_ids[:, None] < npoints_per_pillar[None, :]
features *= mask[:, :, None]
# 假点所有 9 维特征全部归零
# Max Pooling 时全零的假点不会影响最大值

这行代码利用广播机制高效生成 Mask：

voxel_ids：(32,) = $0,1,2,...,31$
npoints_per_pillar：(M,) = 每个 Pillar 的真实点数
比较 (32,1) < (1,M) 广播为 (32,M)，转置后得到每个 Pillar 每个槽位的 True/False

Q: Max Pooling（跨 32 个点）的作用是什么？

三个核心作用：

对称性（顺序无关） ：max({f(p1), f(p2), f(p3)}) = max({f(p3), f(p1), f(p2)})，无论点怎么排列输出相同
处理变长：无论 Pillar 有 3 个点还是 25 个点，输出统一为 64 维向量
提取最显著特征：对每个特征维度保留 Pillar 内所有点中"最活跃"的值。例如通道 17 可能学到"反射率边缘检测" → 取 max 意味着"这个 Pillar 是否有高反射率点？"

Max Pooling 是 PointNet 的核心思想：同时解决了顺序无关性 和变长输入两大难题。

Q: Scatter 到伪图像的 `B` 和 `64` 是什么？

复制代码

伪图像: (B, 64, 496, 432)
         ↑   ↑    ↑    ↑
         │   │    │    └── W=432 (x方向列数)
         │   │    └────── H=496 (y方向行数)
         │   └─────────── C=64 (每个Pillar的特征通道数)
         └─────────────── B=batch size (默认6)

64 = PillarEncoder 的 out_channel，是网络自动学习的抽象特征表示（无明确物理含义）。

这就是"伪图像"名称的由来 --- 和真实图像一样是 (C, H, W) 格式，可直接喂给标准 2D CNN。

E.5 训练与推理

Q: 训练用 6 帧不同时刻的点云放一起会有问题吗？

没有问题。 batch 里的 6 帧是独立随机采样，不是连续时间序列。

每帧点云的坐标都以当前 LiDAR 为原点的相对坐标：

无论车在世界的哪个位置，模型看到的坐标含义一致
x = 前方距离，y = 左右偏移，z = 高度
模型学的是相对位置，不是绝对位置

模型的核心认知单元是 Pillar：只关心"这个 Pillar 长什么样？"，不关心"这个 Pillar 在哪个经纬度、什么时间"。

Q: 模型学习的是 Pillar 感知，与位置时间都无关吗？

完全正确。 模型只问：

"这个 Pillar 有什么几何特征？"（PillarEncoder）
"这个 Pillar 和周围 Pillar 是什么关系？"（Backbone 2D CNN）
"这个特征模式像不像某个物体？"（Detection Head）

不关心：绝对位置（经纬度）、采集时间（上午/下午）、车辆速度。

这正是 PointPillars 泛化能力强的根本原因。

E.6 体素化输出与编码器的关系

Q: 点装饰是体素化的过程吗？为什么输出还是 4 维？

点装饰不是体素化，它们分属两个阶段：

复制代码

阶段1: Voxelization（CUDA 算子）
  把点分到 Pillar 里 → 输出 (M, 32, 4)  ← 4维

阶段2: PillarEncoder（PyTorch 模块）
  接收 (M, 32, 4) → 内部装饰为 9 维 → 编码为 64 维

体素化只负责"分格子"，不改变维度；点装饰在 PillarEncoder 内部发生。

E.7 检测头与后处理

Q: 分类输出 18 个通道，6 个 anchor 都各自有类别吗？

是的。 Head 输出 (B, 18, 248, 216)，reshape 后为 (B, 248, 216, 6, 3)。每个空间位置的 6 个 anchor 各自独立预测 3 个类别的 Sigmoid 分数（非 Softmax），与 YOLOv5/v8 一样都是多标签风格。

三个类别: Pedestrian=0, Cyclist=1, Car=2。KITTI 还标注了 Van, Truck, Tram, Person_sitting, Misc, DontCare 共 8 类，但 PointPillars（及大多数方法）只用 Car/Ped/Cyclist 这 3 类。

未被使用的类别（Van/Truck 等）不做合并，而是直接忽略------其 GT 框不参与 anchor 匹配和损失计算，但点云数据保留为背景。

Q: 解码的 dw, dl, dh 是什么？如何复原？

7 个回归量 (dx, dy, dz, dw, dl, dh, dθ) 的含义：

回归量	含义	归一化方式
`dx, dy`	x, y 中心偏移	除以 anchor 对角线长度 `da = √(w²+l²)`
`dz`	z 中心偏移	除以 anchor 高度 `h_a`
`dw, dl, dh`	宽、长、高的对数比	`log(w/w_a)`，用 `exp()` 复原保证为正
`dθ`	角度残差	直接加在 anchor 角度上

解码公式:

python 复制代码

da = sqrt(anchor_w² + anchor_l²)
x_pred = dx * da + anchor_x
y_pred = dy * da + anchor_y
z_pred = dz * anchor_h + anchor_z + anchor_h/2
w_pred = anchor_w * exp(dw)
l_pred = anchor_l * exp(dl)
h_pred = anchor_h * exp(dh)
z_pred = z_pred - h_pred / 2   # 从顶面中心修正为底面中心
θ_pred = anchor_θ + dθ

Q: 朝向输出的方向分类器代表什么？

问题: 3D 框旋转 180° 后形状完全一样，SmoothL1 无法区分 0° 和 180°。

解决 : 二分类方向分类器 dir_cls ∈ {0, 1}，回答"角度要不要加 180°"：

dir_cls=0（正方向）: dθ 在 [0, π) 半圆
dir_cls=1（反方向）: dθ 在 [-π, 0) 半圆

推理时先将 θ 限制到 [-π, 0]（Q3/Q4），再根据 dir_cls 决定是否加 π 翻到 Q1/Q2。

θ 的最终范围 : [-π, π] 弧度 = [-180°, 180°]。单位是弧度（radians）。

Q: 为什么不直接预测 θ ∈ $0, 2π$ ，省去方向分类器？

因为 SmoothL1 在圆形量上失效：

GT=359°, 预测=1° → 几何只差 2°，但 SmoothL1 算 |359-1|=358，Loss 爆炸
SmoothL1 理解的是"直线距离"，不理解"圆"

PointPillars 的解决方案是把圆切成两个半圆分别处理，每个半圆内 SmoothL1 不会撞边界。

Q: NMS 是 3D NMS 吗？

不是。是 BEV（鸟瞰图）下的 2D NMS。

3D 框投影为 BEV 5 维 (x1, y1, x2, y2, θ)，丢弃 z 和 h
使用 GPU 加速的 NMS (nms_cuda)
论文指出轴对齐 2D NMS 与旋转 3D NMS 性能相近但快得多

NMS 后处理: Top-100 筛选 → 分数阈值(0.1) → 逐类 BEV 2D NMS(0.01) → 方向修正 → Top-50。

E.8 锚框与角度深入

Q: 为何 anchor 朝向是 0° 和 90°？

网络通过预测 dθ 来调整到任意角度。Anchor 的 0° 和 90° 只是"初始猜测"：

复制代码

θ_pred = anchor_θ + dθ

anchor_θ=0°  → θ_pred = 0° + dθ → 可覆盖 [-180°, 180°]
anchor_θ=90° → θ_pred = 90° + dθ → 同样覆盖所有角度

朝向角在 BEV 平面定义：θ = 物体长轴与 x 轴（前方）的夹角，是绕 z 轴的旋转角（yaw）。

Q: Anchor 从哪来？是数据学出来的吗？

Anchor 是人为设定的超参数，基于对典型物体尺寸的先验知识：

Car: (1.6, 3.9, 1.56)m → 一辆典型轿车
Pedestrian: (0.6, 0.8, 1.73)m → 成年人直立
Cyclist: (0.6, 1.76, 1.73)m → 自行车+人

来自 VoxelNet/SECOND 论文沿用 + KITTI 训练集统计 + 社区经验微调。不是 K-Means 聚类生成的。

Q: 没有 RGB，纯几何特征能区分类别吗？

能。 PointPillars 是纯 LiDAR 方法。依赖：

几何形状（Car=L形轮廓，Ped=细高柱状，Cyc=细长+车轮）
反射率（车牌高反射、车漆中等、衣物较低）
Pillar 间空间关系（Backbone 2D CNN 学习）

论文实验: 纯 LiDAR 的 PointPillars 在某些指标甚至超过了 LiDAR+图像融合方法。

Q: reflectance 有被模型使用吗？

有。 Reflectance 作为原始输入的第 4 维一路保留：

复制代码

原始点 (x,y,z,r) → 体素化 (M,32,4) → 点装饰 (M,32,9) → Conv1d → 64维

Reflectance 和 x,y,z 一样作为原始特征直接送入 Conv1d，网络自动学习如何利用反射率信息。

Q: `limit_period` 函数的 offset 原理？

python 复制代码

def limit_period(val, offset=0.5, period=np.pi):
    return val - torch.floor(val / period + offset) * period

本质是取模运算的变体，offset 控制结果范围：

offset=0 → [0, π)
offset=0.5 → [-π/2, π/2)
offset=1 → [-π, 0) ← 代码中使用，把任意角度压缩到 Q3/Q4

推导: k = floor(val/π + 1), val ∈ [(k-1)π, kπ)
result = val - kπ ∈ [-π, 0)

E.9 训练细节补充

Q: Ranger 参数含义？怎么确定的？

python 复制代码

ranges = [
    [0, -39.68, -0.6,  69.12, 39.68, -0.6  ],  # Pedestrian
    [0, -39.68, -0.6,  69.12, 39.68, -0.6  ],  # Cyclist
    [0, -39.68, -1.78, 69.12, 39.68, -1.78 ],  # Car
]

ranges[i] = [x_min, y_min, z_min, x_max, y_max, z_max] --- anchor 放置的空间范围。

z 范围为什么不同？LiDAR 装车顶(z≈0)：

Ped/Cyc: 站立/骑行，身体中部约 -0.6m（LiDAR 下方 0.6m）
Car: 车底面在地面(LiDAR 下约 1.7m)，z 中心约 -1.78m

基于 KITTI 训练集物体高度统计 + LiDAR 安装高度确定。

Q: 随机丢弃 Pillar 会不会把小物体整个丢掉？

风险极小，四层保护：

跨 Pillar 覆盖: 一个行人(0.6×0.8m)占 4×5≈20 个 Pillar，全丢概率极低
max_voxels=16000 基本不触发: KITTI 典型 6k-9k Pillar，远低于上限
数据增强增加物体密度: DB Sampling 额外加入 15+10+10 个物体
每次迭代丢弃不同: Point Shuffle 后丢弃位置随机

不是从每个 label 均匀丢弃------丢弃是全局随机的。

Q: Batch 内 Pillars 合并会破坏数据吗？

不会。 每个 Pillar 的 coors_batch 第 0 列 = batch_id 标签：

复制代码

concat 后:(46800, 32, 4)
  [0, 32, 234, 0] ← 帧0 的 Pillar(32,234)
  ...
  [1, 32, 234, 0] ← 帧1 的 Pillar(32,234)（同一位置！不同帧，batch_id 不同）

Scatter 时按 batch_id 逐帧分离，每帧独立放到自己的 2D 画布，再 stack 成 (6, 64, 496, 432)。

Q: 随机丢弃是全局的还是逐帧的？

逐帧独立。 每帧单独调 hard_voxelize，max_voxels=16000 是每帧的上限：

帧0: 9000 个 → 全保留
帧1: 20000 个 → 截断到 16000，丢 4000
帧2: 7000 个 → 全保留

帧间 Pillar 数本就不均等（场景多样性），且每帧损失独立除以自己的 N_pos，稀疏帧不会被淹没。这是设计如此。

问答更新时间 : 2026-05-17
基于代码版本: PointPillars-main (master branch)

基于deepSeekV4Pro(thinking)研究pointPillar的历程

PointPillars 项目技术栈全解析

目录

1. 项目概述

检测性能 (KITTI val set, 3D-BBox mAP)

2. 编程语言与构建系统

构建流程

3. 深度学习框架

PyTorch 1.8.1+cu111

4. CUDA/C++ 自定义算子

4.1 体素化 (Voxelization)

4.2 3D IoU / NMS

5. 数值计算与加速库

Numba 的特定用途

6. 计算机视觉库

7. 3D 可视化工具

可视化模块

8. 实验管理与监控

训练日志

9. 数据处理与序列化

数据预处理 (pre_process_kitti.py)

10. 模型架构详解

整体数据流

关键参数

锚框设计 (Anchors)

锚框分配策略 (Anchor Assigner)

解码公式 (Anchor → BBox)

初始化策略

11. 损失函数设计

总损失

Focal Loss 实现细节

回归目标 (7-DOF)

12. 数据增强策略

12.1 DB Sampling (数据库采样)

12.2 Object Noise (目标级噪声)

12.3 Random Flip (随机水平翻转)

12.4 Global Rot/Scale/Trans (全局变换)

12.5 Point Range Filter

12.6 Object Range Filter

12.7 Point Shuffle

13. 训练策略与超参数

优化器

学习率调度器

训练超参数

随机种子

14. 评估与推理

评估流程 (evaluate.py)

推理流程 (test.py)

15. 数据集 (KITTI)

数据来源

数据集划分 (ImageSets)

坐标系

16. 项目依赖清单

环境要求

17. 文件结构与职责

附录: 关键设计模式与技巧

A. 自定义 CUDA 算子的 autograd 封装

B. 高效的 Mask 操作

C. Bird's Eye View (BEV) 投影

D. 方向分类

附录 E: 常见问题深入解答 (Q&A)

E.1 点云数据基础

Q: 点云为何是 (x, y, z, reflectance)？reflectance 是什么？

Q: KITTI 坐标系各个轴的方向是怎样的？

E.2 点装饰 (Point Decoration) 与数据增强

Q: 4D → 9D 是数据增强吗？

Q: 9 维的构成分别是什么？

Q: 为什么 x_p, y_p 是二维的，没有 z_p？

Q: x_c, y_c, z_c 是质心的偏移吗？

E.3 Pillar 体素化 (Voxelization)

Q: Pillar 是聚类生成的么？

Q: 0.16m × 0.16m 网格是基于什么划分的？

Q: voxel_size 和 point_cloud_range 是什么意思？

Q: Pillar 索引计算详解

Q: Pillar (32, 234) 中 32 和 234 代表什么？

Q: voxels (M, max_points, 4), coordinates (M, 3), num_points_per_voxel (M,) 分别是什么？

Q: max_voxels=16000/40000 是什么意思？

Q: 随机丢弃是丢 Pillar 内的点还是整个 Pillar？

Q: Point Shuffle（点云随机打乱）为什么必要？

E.4 PillarEncoder 特征编码

数据预处理 (`pre_process_kitti.py`)

评估流程 (`evaluate.py`)

推理流程 (`test.py`)

Q: 点云为何是 `(x, y, z, reflectance)`？reflectance 是什么？

Q: 为什么 `x_p, y_p` 是二维的，没有 `z_p`？

Q: `x_c, y_c, z_c` 是质心的偏移吗？

Q: `voxel_size` 和 `point_cloud_range` 是什么意思？

Q: `Pillar (32, 234)` 中 32 和 234 代表什么？

Q: `voxels (M, max_points, 4)`, `coordinates (M, 3)`, `num_points_per_voxel (M,)` 分别是什么？

Q: `max_voxels=16000/40000` 是什么意思？

Q: Scatter 到伪图像的 `B` 和 `64` 是什么？

Q: 为什么不直接预测 θ ∈ $0, 2π$ ，省去方向分类器？

Q: `limit_period` 函数的 offset 原理？