PETR: Position Embedding Transformation for Multi-View 3D Object Detection

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

作者单位

旷视

目的

DETR3D 中 2D->3D过程 存在的问题:

  1. 预测的参考点坐标可能不准确,在采样图片特征时可能拿不到对应的特征。
  2. 只有参考点 投影位置的图像特征被使用,无法学到全局的特征。
  3. 采样图像特征的过程过于复杂,难于应用

本文的目标是 在 DETR 的基础上,提出一个 简单优雅的 3D 目标检测框架

本文的贡献总结:

  1. 提出了一个简单优雅的框架,PETR,用于多视角的 3D 目标检测。
  2. 提出了一个新的 3D position-aware 表示
  3. 在 nuScenes 数据集上达到了 sota

方法

网络结构

网络整体结构:

  1. N 个 view 的图片,送入到 backbone(resnet50) 中提取 特征
  2. 3D坐标生成器:先将图像视锥空间离散化到成 3D 的 网格,然后使用 相机的参数,变换网格的坐标,并生成 3D 空间的坐标。
  3. 3D的坐标 和 2D feature 一起送入到 3D 位置编码器中,生成 3D position-aware 特征(每个 view 对应一个 特征图)。
  4. 3D position-aware 特征 会送入到 transformer decoder 中 并且与 来自 query 生成器 的 object queries 交互
  5. 更新后的 object queries 被用于生成 目标类别 和 3D 的 bounding boxes

3D 坐标生成器:

为了建立起 2D 图像 和 3D 空间的联系,将 相机视锥空间的点 投影到 3D 空间,因为这两个空间的点 是 一一对应的。

和 DGSN 论文相同,首先 离散 相机视锥空间 生成一个 网格(shape : W_F, H_F, d),然后可以用一个 变换矩阵 将 坐标 转换到 3D 坐标,3D 空间的 是 所有 view 的相机共享的。

然后再对 3D 空间下的坐标做归一化

归一化之后的坐标 在经过一次 transposed

3D 位置编码器

3D 位置编码器的目的 是 通过 联系 2D 图像特征 与 3D 位置信息 来 获得 3D 的特征

3D 位置编码器的结构:

2D特征 经过 1x1 卷积降维,3D坐标 使用 mlp 生成 embedding,然后将两者 add ,再 使用 flatten ,生成 向量(3D position-aware feature, shape, NxHxW)

Query 生成器 和 Decoder

Query Generator:

(网络学习的是基于 最初的 object queries 的 offset ,这样有利于网络收敛。以及该网络生成的是 3D 空间下的坐标点,这样可以保证网络的收敛,本文尝试了 DETR 中的设置,或者生成 BEV 下的 anchor poitns 都不能保证收敛

首先 初始化一组可学习的 3D 世界空间的 anchor poins 服从 0到1 的均匀分布,

然后输出 两层的 mlp 中 生成 最初的object queries。

Decoder

使用的 DETR 中标准的 decoder

相关推荐
AGV算法笔记4 分钟前
二维码目标检测论文精读:EA-OBB 如何用轻量化旋转检测提升 QR 码定位效果?
人工智能·目标检测·目标跟踪
军军君0116 分钟前
Three.js基础功能学习十五:智能黑板实现实例二
开发语言·前端·javascript·vue.js·3d·threejs·三维
半步成诗!1 小时前
【RJ 45连接器】RJ45 网络连接器 3D 模型 3 零件装配体 SolidWorks 源文件 含 STEP/IGS 通用格式
网络·笔记·3d·硬件工程
jay神1 小时前
基于 YOLOv8 的PCB 缺陷检测系统
python·深度学习·yolo·目标检测·信息可视化·毕业设计
QQ676580081 小时前
基于yolo26算法的水下目标检测图像数据集 海洋生物识别 海胆识别 海龟识别数据集 海洋生物监测与保护工作 潜水作业安全辅助系 水下环境感知第10408期
算法·目标检测·水下目标检测·海洋生物识别·海胆 海龟识别·海洋生物监测与保护工作·潜水作业安全辅助 水下环境感知
syncon121 天前
基于手机液晶相变的集成电路内部短路失效定位及液晶线路激光修复原理
科技·3d·制造
羊羊小栈1 天前
基于「YOLO目标检测 + 多模态AI分析」的智慧农业茶叶病害检测预警系统
人工智能·yolo·目标检测·计算机视觉·毕业设计·大作业
前端摸鱼匠1 天前
YOLOv11 在零售领域实战:利用公开的商品检测数据集 (如 SKU110K 的子集),训练一个 YOLOv11 模型,用于识别货架上的各种商品
人工智能·yolo·目标检测·ai·目标跟踪·视觉检测·零售
SUNNY_SHUN1 天前
不需要Memory Bank:CMDR-IAD用2D+3D双分支重建做工业异常检测,MVTec 3D 97.3%
论文阅读·人工智能·算法·3d
deephub1 天前
向量相似性搜索详解:Flat Index、IVF 与 HNSW
人工智能·python·机器学习·embedding·向量检索