原文链接:https://arxiv.org/abs/2309.02049
1. 引言
基于激光雷达的3D目标检测方法通常依赖经验设置锚框或中心半径,而本文探索从随机框直接预测真实边界框。
本文提出Diff3Det,使用扩散模型进行3D目标检测。首先为真实边界框添加高斯噪声,获得带噪声的边界框,然后从BEV特征图提取RoI特征,并输入到解码器预测带噪声边界框与真实边界框的偏移。这样,模型能从带噪声边界框中恢复真实边界框。
3. 方法
3.1 对扩散模型的回顾
见此文3.1节(本文中,数据用 x 0 , x 1 , ⋯ , x t , ⋯ , x T x_0,x_1,\cdots,x_t,\cdots,x_T x0,x1,⋯,xt,⋯,xT表示)。
本文将真实边界框作为 x 0 ∈ R N × 5 x_0\in\mathbb{R}^{N\times5} x0∈RN×5,并训练神经网络 f θ ( x t , t , x ) f_\theta(x_t,t,x) fθ(xt,t,x)预测 x 0 x_0 x0,其中 x t x_t xt为带噪声边界框, x x x为相应的点云特征。
3.2 概述
本文的方法包含由扩散指导的提案生成器(通过为真实边界框添加高斯噪声得到 x t x_t xt),编码器(3D体素主干,提取点云特征)和解码器(从 x t x_t xt和相应的RoI特征预测真实边界框),如上图所示。
3.3 扩散指导的提案生成器
BEV是3D目标检测的有效表达,本文使用BEV边界框 ( c x , c y , d x , d y , θ ) (cx,cy,dx,dy,\theta) (cx,cy,dx,dy,θ)表达边界框。首先将真实边界框的数量复制到 N N N,并归一化到0和1之间,并引入信号缩放因数,控制扩散过程的信噪比。然后按照下式添加噪声,得到提案框 x t x_t xt: x t = α ˉ t x 0 + 1 − α ˉ t ϵ x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon xt=αˉt x0+1−αˉt ϵ其中 ϵ ∼ N ( 0 , I 5 ) \epsilon\sim\mathcal{N}(0,I_5) ϵ∼N(0,I5)。
由于从不含激光雷达点的提案框中恢复真实边界框很困难,因此统计各提案框内的点数 m m m,并设置阈值 η \eta η。若 m < η m<\eta m<η,移除提案框并替换为随机边界框,直到所有提案框都至少有 η \eta η个点。该方法同样被用于提案框的细化,因为本文发现提案框的质量是该方法成功的关键(见后文)。
尺寸的相关系数 :真实世界中物体的长宽有一定关系,因此将随机边界框的长和宽看作两个独立的随机变量是不合适的。本文引入相关系数以限制随机边界框的尺寸: W = ρ L + 1 − ρ 2 X W=\rho L+\sqrt{1-\rho^2}X W=ρL+1−ρ2 X其中 L , X ∼ N ( 0 , 1 ) L,X\sim\mathcal{N}(0,1) L,X∼N(0,1)且独立, ρ = 0.8 \rho=0.8 ρ=0.8。此后,将随机变量 W , L W,L W,L分别缩放到 ( 0 , w ) (0,w) (0,w)和 ( 0 , l ) (0,l) (0,l)范围内作为提案的尺寸。
动态时间步长 :在训练的早期,从带噪声样本恢复真值很困难,因此本文使用正弦调度控制时间步长范围,噪声在训练阶段逐步提高。设 n n n为训练总轮数, T T T为需要的最大时间。则当前轮次 x x x的最大时间 T max T_{\max} Tmax为: T max = { T ⌊ sin ( cos − 1 ( ω T ) σ n x + sin − 1 ( ω T ) ) ⌋ x < σ n T x ≥ σ n T_{\max}=\left\{\begin{matrix}T\left \lfloor \sin(\frac{\cos^{-1}(\frac{\omega}{T})}{\sigma n}x+\sin^{-1}(\frac{\omega}{T})) \right \rfloor &x<\sigma n\\T&x\geq\sigma n\end{matrix}\right. Tmax={T⌊sin(σncos−1(Tω)x+sin−1(Tω))⌋Tx<σnx≥σn其中超参数 ω \omega ω和 σ \sigma σ分别控制第一轮训练的步数和训练到达最大步数 T T T的轮数。
3.4 损失函数
给定真实物体集合 y = { y i } i = 1 M y=\{y_i\}{i=1}^M y={yi}i=1M和预测集合 y ^ = { y ^ i } i = 1 N \hat{y}=\{\hat{y}i\}{i=1}^N y^={y^i}i=1N,匹配代价定义如下: C match = λ c l s L c l s + λ r e g L r e g + λ I o U L B E V _ I o U C = arg min i ∈ M , j ∈ N C match ( y ^ i , y j ) \mathcal{C}\text{match}=\lambda_{cls}\mathcal{L}{cls}+\lambda{reg}\mathcal{L}{reg}+\lambda{IoU}\mathcal{L}{BEV\IoU}\\\mathcal{C}=\argmin{i\in M,j\in N}\mathcal{C}\text{match}(\hat{y}i,y_j) Cmatch=λclsLcls+λregLreg+λIoULBEV_IoUC=i∈M,j∈NargminCmatch(y^i,yj)其中 L c l s \mathcal{L}{cls} Lcls为分类的focal损失, L r e g \mathcal{L}{reg} Lreg和 L B E V _ I o U \mathcal{L}{BEV\_IoU} LBEV_IoU分别为边界框预测的L1损失和BEV IoU损失。
训练损失仅对匹配物体对计算: L = λ c l s L c l s + λ r e g L r e g + λ I o U L D I o U \mathcal{L}=\lambda_{cls}\mathcal{L}{cls}+\lambda{reg}\mathcal{L}{reg}+\lambda{IoU}\mathcal{L}{DIoU} L=λclsLcls+λregLreg+λIoULDIoU其中 L D I o U \mathcal{L}{DIoU} LDIoU为旋转3D IoU损失。
3.5 推断阶段
推断阶段为从噪声到边界框的去噪过程。Diff3Det迭代地从采样自高斯分布的边界框细化预测。给定随机边界框或上一步的预测边界框,解码器会给出当前的预测结果。下一步的提案框可按下式计算: x t − s = α t − s ( x t − 1 − α t ϵ θ ( t ) ( x t ) α t ) + 1 − α t − s − σ t 2 ϵ θ ( t ) ( x t ) + σ t ϵ t σ t = 1 − α t / α t − s ( 1 − α t − s ) / ( 1 − α t ) x_{t-s}=\sqrt{\alpha_{t-s}}(\frac{x_t-\sqrt{1-\alpha_t}\epsilon_\theta^{(t)}(x_t)}{\sqrt{\alpha_t}})+\sqrt{1-\alpha_{t-s}-\sigma_t^2}\epsilon_\theta^{(t)}(x_t)+\sigma_t\epsilon_t\\\sigma_t=\sqrt{\frac{1-\alpha_t/\alpha_{t-s}}{(1-\alpha_{t-s})/(1-\alpha_t)}} xt−s=αt−s (αt xt−1−αt ϵθ(t)(xt))+1−αt−s−σt2 ϵθ(t)(xt)+σtϵtσt=(1−αt−s)/(1−αt)1−αt/αt−s 其中 x t , x t − s x_t,x_{t-s} xt,xt−s分别表示相邻两步的提案框, ϵ θ ( t ) ( x t ) \epsilon_\theta^{(t)}(x_t) ϵθ(t)(xt)为解码器预测的偏移量, ϵ t \epsilon_t ϵt为高斯噪声。采样步数 m m m可以大于1,且 s = T / m s=T/m s=T/m。若使用多步迭代,需要使用NMS处理冗余边界框。
4. 结果与分析
4.3 主要结果
Diff3Det能超过基于锚框的经典模型的性能。
当步数大于1时,性能提升主要在困难物体上,因为更多的步数导致更多的预测边界框,对困难物体的检测有利。但过多的预测会混淆NMS的处理,导致简单物体的性能略微下降。
4.4 消融研究
提出的组件 :针对扩散指导的提案生成器,本文以完全随机边界框作为基准,逐步添加(1)带噪声的真实边界框;(2)丢弃点数为0的随机框并进行重采样;(3)使用尺寸相关性约束边界框长宽比;(4)动态时间步长,性能均有提升。
采样步数:推断时,适当地增加采样步数能提高性能。
4.5 局限性
解码器从随机边界框回归预测结果比较困难,导致相对慢的收敛速度。