【论文笔记】Diffusion-based 3D Object Detection with Random Boxes

原文链接:https://arxiv.org/abs/2309.02049

1. 引言

基于激光雷达的3D目标检测方法通常依赖经验设置锚框或中心半径,而本文探索从随机框直接预测真实边界框。

本文提出Diff3Det,使用扩散模型进行3D目标检测。首先为真实边界框添加高斯噪声,获得带噪声的边界框,然后从BEV特征图提取RoI特征,并输入到解码器预测带噪声边界框与真实边界框的偏移。这样,模型能从带噪声边界框中恢复真实边界框。

3. 方法

3.1 对扩散模型的回顾

此文3.1节(本文中,数据用 x 0 , x 1 , ⋯   , x t , ⋯   , x T x_0,x_1,\cdots,x_t,\cdots,x_T x0,x1,⋯,xt,⋯,xT表示)。

本文将真实边界框作为 x 0 ∈ R N × 5 x_0\in\mathbb{R}^{N\times5} x0∈RN×5,并训练神经网络 f θ ( x t , t , x ) f_\theta(x_t,t,x) fθ(xt,t,x)预测 x 0 x_0 x0,其中 x t x_t xt为带噪声边界框, x x x为相应的点云特征。

3.2 概述

本文的方法包含由扩散指导的提案生成器(通过为真实边界框添加高斯噪声得到 x t x_t xt),编码器(3D体素主干,提取点云特征)和解码器(从 x t x_t xt和相应的RoI特征预测真实边界框),如上图所示。

3.3 扩散指导的提案生成器

BEV是3D目标检测的有效表达,本文使用BEV边界框 ( c x , c y , d x , d y , θ ) (cx,cy,dx,dy,\theta) (cx,cy,dx,dy,θ)表达边界框。首先将真实边界框的数量复制到 N N N,并归一化到0和1之间,并引入信号缩放因数,控制扩散过程的信噪比。然后按照下式添加噪声,得到提案框 x t x_t xt: x t = α ˉ t x 0 + 1 − α ˉ t ϵ x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon xt=αˉt x0+1−αˉt ϵ其中 ϵ ∼ N ( 0 , I 5 ) \epsilon\sim\mathcal{N}(0,I_5) ϵ∼N(0,I5)。

由于从不含激光雷达点的提案框中恢复真实边界框很困难,因此统计各提案框内的点数 m m m,并设置阈值 η \eta η。若 m < η m<\eta m<η,移除提案框并替换为随机边界框,直到所有提案框都至少有 η \eta η个点。该方法同样被用于提案框的细化,因为本文发现提案框的质量是该方法成功的关键(见后文)。

尺寸的相关系数 :真实世界中物体的长宽有一定关系,因此将随机边界框的长和宽看作两个独立的随机变量是不合适的。本文引入相关系数以限制随机边界框的尺寸: W = ρ L + 1 − ρ 2 X W=\rho L+\sqrt{1-\rho^2}X W=ρL+1−ρ2 X其中 L , X ∼ N ( 0 , 1 ) L,X\sim\mathcal{N}(0,1) L,X∼N(0,1)且独立, ρ = 0.8 \rho=0.8 ρ=0.8。此后,将随机变量 W , L W,L W,L分别缩放到 ( 0 , w ) (0,w) (0,w)和 ( 0 , l ) (0,l) (0,l)范围内作为提案的尺寸。

动态时间步长 :在训练的早期,从带噪声样本恢复真值很困难,因此本文使用正弦调度控制时间步长范围,噪声在训练阶段逐步提高。设 n n n为训练总轮数, T T T为需要的最大时间。则当前轮次 x x x的最大时间 T max ⁡ T_{\max} Tmax为: T max ⁡ = { T ⌊ sin ⁡ ( cos ⁡ − 1 ( ω T ) σ n x + sin ⁡ − 1 ( ω T ) ) ⌋ x < σ n T x ≥ σ n T_{\max}=\left\{\begin{matrix}T\left \lfloor \sin(\frac{\cos^{-1}(\frac{\omega}{T})}{\sigma n}x+\sin^{-1}(\frac{\omega}{T})) \right \rfloor &x<\sigma n\\T&x\geq\sigma n\end{matrix}\right. Tmax={T⌊sin(σncos−1(Tω)x+sin−1(Tω))⌋Tx<σnx≥σn其中超参数 ω \omega ω和 σ \sigma σ分别控制第一轮训练的步数和训练到达最大步数 T T T的轮数。

3.4 损失函数

给定真实物体集合 y = { y i } i = 1 M y=\{y_i\}{i=1}^M y={yi}i=1M和预测集合 y ^ = { y ^ i } i = 1 N \hat{y}=\{\hat{y}i\}{i=1}^N y^={y^i}i=1N,匹配代价定义如下: C match = λ c l s L c l s + λ r e g L r e g + λ I o U L B E V _ I o U C = arg min ⁡ i ∈ M , j ∈ N C match ( y ^ i , y j ) \mathcal{C}\text{match}=\lambda_{cls}\mathcal{L}{cls}+\lambda{reg}\mathcal{L}{reg}+\lambda{IoU}\mathcal{L}{BEV\IoU}\\\mathcal{C}=\argmin{i\in M,j\in N}\mathcal{C}\text{match}(\hat{y}i,y_j) Cmatch=λclsLcls+λregLreg+λIoULBEV_IoUC=i∈M,j∈NargminCmatch(y^i,yj)其中 L c l s \mathcal{L}{cls} Lcls为分类的focal损失, L r e g \mathcal{L}{reg} Lreg和 L B E V _ I o U \mathcal{L}{BEV\_IoU} LBEV_IoU分别为边界框预测的L1损失和BEV IoU损失。

训练损失仅对匹配物体对计算: L = λ c l s L c l s + λ r e g L r e g + λ I o U L D I o U \mathcal{L}=\lambda_{cls}\mathcal{L}{cls}+\lambda{reg}\mathcal{L}{reg}+\lambda{IoU}\mathcal{L}{DIoU} L=λclsLcls+λregLreg+λIoULDIoU其中 L D I o U \mathcal{L}{DIoU} LDIoU为旋转3D IoU损失。

3.5 推断阶段

推断阶段为从噪声到边界框的去噪过程。Diff3Det迭代地从采样自高斯分布的边界框细化预测。给定随机边界框或上一步的预测边界框,解码器会给出当前的预测结果。下一步的提案框可按下式计算: x t − s = α t − s ( x t − 1 − α t ϵ θ ( t ) ( x t ) α t ) + 1 − α t − s − σ t 2 ϵ θ ( t ) ( x t ) + σ t ϵ t σ t = 1 − α t / α t − s ( 1 − α t − s ) / ( 1 − α t ) x_{t-s}=\sqrt{\alpha_{t-s}}(\frac{x_t-\sqrt{1-\alpha_t}\epsilon_\theta^{(t)}(x_t)}{\sqrt{\alpha_t}})+\sqrt{1-\alpha_{t-s}-\sigma_t^2}\epsilon_\theta^{(t)}(x_t)+\sigma_t\epsilon_t\\\sigma_t=\sqrt{\frac{1-\alpha_t/\alpha_{t-s}}{(1-\alpha_{t-s})/(1-\alpha_t)}} xt−s=αt−s (αt xt−1−αt ϵθ(t)(xt))+1−αt−s−σt2 ϵθ(t)(xt)+σtϵtσt=(1−αt−s)/(1−αt)1−αt/αt−s 其中 x t , x t − s x_t,x_{t-s} xt,xt−s分别表示相邻两步的提案框, ϵ θ ( t ) ( x t ) \epsilon_\theta^{(t)}(x_t) ϵθ(t)(xt)为解码器预测的偏移量, ϵ t \epsilon_t ϵt为高斯噪声。采样步数 m m m可以大于1,且 s = T / m s=T/m s=T/m。若使用多步迭代,需要使用NMS处理冗余边界框。

4. 结果与分析

4.3 主要结果

Diff3Det能超过基于锚框的经典模型的性能。

当步数大于1时,性能提升主要在困难物体上,因为更多的步数导致更多的预测边界框,对困难物体的检测有利。但过多的预测会混淆NMS的处理,导致简单物体的性能略微下降。

4.4 消融研究

提出的组件 :针对扩散指导的提案生成器,本文以完全随机边界框作为基准,逐步添加(1)带噪声的真实边界框;(2)丢弃点数为0的随机框并进行重采样;(3)使用尺寸相关性约束边界框长宽比;(4)动态时间步长,性能均有提升。

采样步数:推断时,适当地增加采样步数能提高性能。

4.5 局限性

解码器从随机边界框回归预测结果比较困难,导致相对慢的收敛速度。

相关推荐
YRr YRr12 分钟前
深度学习:Transformer Decoder详解
人工智能·深度学习·transformer
Shy96041821 分钟前
Bert完形填空
python·深度学习·bert
老艾的AI世界39 分钟前
新一代AI换脸更自然,DeepLiveCam下载介绍(可直播)
图像处理·人工智能·深度学习·神经网络·目标检测·机器学习·ai换脸·视频换脸·直播换脸·图片换脸
浊酒南街1 小时前
吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)4.9-4.10
人工智能·深度学习·神经网络·cnn
懒惰才能让科技进步2 小时前
从零学习大模型(十二)-----基于梯度的重要性剪枝(Gradient-based Pruning)
人工智能·深度学习·学习·算法·chatgpt·transformer·剪枝
没有不重的名么2 小时前
门控循环单元GRU
人工智能·深度学习·gru
love_and_hope2 小时前
Pytorch学习--神经网络--搭建小实战(手撕CIFAR 10 model structure)和 Sequential 的使用
人工智能·pytorch·python·深度学习·学习
学术头条2 小时前
AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告
人工智能·科技·深度学习·语言模型
准橙考典2 小时前
怎么能更好的通过驾考呢?
人工智能·笔记·自动驾驶·汽车·学习方法
孙同学要努力3 小时前
《深度学习》——深度学习基础知识(全连接神经网络)
人工智能·深度学习·神经网络