PillarNet: Real-Time and High-PerformancePillar-based 3D Object Detection

​ECCV 2022

paper:[2205.07403] PillarNet: Real-Time and High-Performance Pillar-based 3D Object Detection

code:https://github.com/VISION-SJTU/PillarNet-LTS

纯点云基于pillar3D检测模型

网络比较

SECOND

  • 基于voxel,one-stage,基于sparse 3D conv

  • 将点云划分为3D voxel,在BEV空间识别box

  • 模型结构包括

    • encoder:编码非空3D voxel特征,生成多size3D特征

    • neck:将bev空间下的多尺度3D特征flatten,转换成多尺度(和多size区别?)特征;top-down

    • detect head:用多尺度bev特征做box分类回归

PointPillars

  • 用一个小PointNet将点云投射到xy平面,生成一个稀疏2D底图

  • 2Dconv(top-down)网络,对底图生成多尺度特征

  • detect head

分析

  • 基于pillar的网络性能瓶颈(资源性能?效果性能?)主要在于sparse encoder、neck模块

  • PointPillar直接在稠密的2d底图上 用特征金字塔网络 fuse多尺度特征

    • 缺少pillar特征编码

    • 把输出特征的size和初始pillar范围耦合了,造成所用计算资源随着pillar scale上涨

改进

  1. 将SECOND中的3d sparse conv替换成2d

  2. 用neck模块融合稀疏的空间特征、抽象高维语义特征

  3. 总结

    1. 学pillar 特征:较重的 sparse encoder

    2. 空间特征融合:较轻的neck

结构

encoder

  1. 输入:稀疏2d pillar特征

  2. stage1-4:2d conv,逐渐降采样pillar特征

    1. 可使用2d检测backbone:vgg,resnet,并且可提升3d效果

    2. 逐渐降采样,缓解了pillar size绑定的影响

neck

  1. 16倍下采样稠密特征

  2. 3种设计

    1. v1:SECOND设计

    2. v2:基于1多一条skip connection

    3. v3:基于2多一层conv

loss

  1. cls:focal loss

  2. iou:

    1. S:分类score

    2. W:3d iou score

      1. L1 loss

      2. β:超参

      3. iou计算:2 ∗ (W − 0.5) ∈ [−1, 1].

    3. 解耦朝向:xxIoU loss → OD-xxIoU

  1. size(3d box),off(位置偏移量),z(z方向位置),ori(朝向):L1 loss

相关推荐
陈广亮12 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬12 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia13 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区13 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两16 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪16 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat2325516 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源
王鑫星16 小时前
SWE-bench 首次突破 80%:Claude Opus 4.5 发布,Anthropic 的野心不止于写代码
人工智能
lnix16 小时前
当“大龙虾”养在本地:我们离“反SaaS”的AI未来还有多远?
人工智能·aigc