PETR: Position Embedding Transformation for Multi-View 3D Object Detection

作者单位

旷视

目的

DETR3D 中 2D->3D过程存在的问题：

本文的目标是在 DETR 的基础上，提出一个简单优雅的 3D 目标检测框架

本文的贡献总结：

N 个 view 的图片，送入到 backbone（resnet50）中提取特征
3D坐标生成器：先将图像视锥空间离散化到成 3D 的网格，然后使用相机的参数，变换网格的坐标，并生成 3D 空间的坐标。
3D的坐标和 2D feature 一起送入到 3D 位置编码器中，生成 3D position-aware 特征（每个 view 对应一个特征图）。
3D position-aware 特征会送入到 transformer decoder 中并且与来自 query 生成器的 object queries 交互
更新后的 object queries 被用于生成目标类别和 3D 的 bounding boxes

为了建立起 2D 图像和 3D 空间的联系，将相机视锥空间的点投影到 3D 空间，因为这两个空间的点是一一对应的。

和 DGSN 论文相同，首先离散相机视锥空间生成一个网格（shape : W_F, H_F, d），然后可以用一个变换矩阵将坐标转换到 3D 坐标，3D 空间的是所有 view 的相机共享的。

然后再对 3D 空间下的坐标做归一化

归一化之后的坐标在经过一次 transposed

3D 位置编码器的目的是通过联系 2D 图像特征与 3D 位置信息来获得 3D 的特征

3D 位置编码器的结构：

2D特征经过 1x1 卷积降维，3D坐标使用 mlp 生成 embedding，然后将两者 add ，再使用 flatten ，生成向量（3D position-aware feature, shape， NxHxW）

Query Generator：

（网络学习的是基于最初的 object queries 的 offset ，这样有利于网络收敛。以及该网络生成的是 3D 空间下的坐标点，这样可以保证网络的收敛，本文尝试了 DETR 中的设置，或者生成 BEV 下的 anchor poitns 都不能保证收敛

）

首先初始化一组可学习的 3D 世界空间的 anchor poins 服从 0到1 的均匀分布，

然后输出两层的 mlp 中生成最初的object queries。

Decoder

使用的 DETR 中标准的 decoder