PillarNet: Real-Time and High-PerformancePillar-based 3D Object Detection

justtoomuchforyou2025-06-24 16:44

ECCV 2022

paper： $2205.07403$ PillarNet: Real-Time and High-Performance Pillar-based 3D Object Detection

code：https://github.com/VISION-SJTU/PillarNet-LTS

纯点云基于pillar3D检测模型

网络比较

SECOND

基于voxel，one-stage，基于sparse 3D conv
将点云划分为3D voxel，在BEV空间识别box
模型结构包括
- encoder：编码非空3D voxel特征，生成多size3D特征
- neck：将bev空间下的多尺度3D特征flatten，转换成多尺度（和多size区别？）特征；top-down
- detect head：用多尺度bev特征做box分类回归

PointPillars

用一个小PointNet将点云投射到xy平面，生成一个稀疏2D底图
2Dconv（top-down）网络，对底图生成多尺度特征
detect head

分析

基于pillar的网络性能瓶颈（资源性能？效果性能？）主要在于sparse encoder、neck模块
PointPillar直接在稠密的2d底图上用特征金字塔网络 fuse多尺度特征
- 缺少pillar特征编码
- 把输出特征的size和初始pillar范围耦合了，造成所用计算资源随着pillar scale上涨

改进

将SECOND中的3d sparse conv替换成2d
用neck模块融合稀疏的空间特征、抽象高维语义特征
总结
1. 学pillar 特征：较重的 sparse encoder
2. 空间特征融合：较轻的neck

结构

encoder

输入：稀疏2d pillar特征
stage1-4：2d conv，逐渐降采样pillar特征
1. 可使用2d检测backbone：vgg，resnet，并且可提升3d效果
2. 逐渐降采样，缓解了pillar size绑定的影响

neck

16倍下采样稠密特征
3种设计
1. v1：SECOND设计
2. v2：基于1多一条skip connection
3. v3：基于2多一层conv

loss

cls：focal loss
iou：

1. S：分类score
2. W：3d iou score
  1. L1 loss
  2. β：超参
  3. iou计算：2 ∗ (W − 0.5) ∈ $-1, 1$ .
3. 解耦朝向：xxIoU loss → OD-xxIoU
size（3d box），off（位置偏移量），z（z方向位置），ori（朝向）：L1 loss

上一篇：操作系统第九章部分

下一篇：Chrome 开发者工具终极指南：从入门到精通

热门推荐

01GitHub 镜像站点 0200 Debian字符界面如何支持中文 03如何新建文件夹？电脑新建文件夹的4种方法 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 10GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析