PS说明:
- mAP :是指平均精度(Average Precision)的平均值,常用于评估目标检测或图像分割模型的性能。
- NDS 指神经数据结构,这是一种使用神经网络来表示和处理数据的方法。神经数据结构可以用于表示复杂的非线性关系和数据模式。
- MACs 指的是乘法累加操作,通常用于衡量深度神经网络中的计算量。MACs 表示在模型的推理过程中进行的乘法和加法操作的总数,是评估模型复杂度和计算资源需求的重要指标。
- Latency 是指系统或模型处理任务的时间,在机器学习中,常用于描述模型推理或训练的时间消耗。Latency(ms) 中的 "ms" 表示毫秒,是时间单位。
- mATE 是衡量预测轨迹与真实轨迹之间误差的指标 。它常用于评估深度估计、目标跟踪 等任务的性能。mATE越低代表深度估计的性能更好。
- mASE 是一种用于评估预测模型性能的指标 。它的主要作用是衡量预测值与真实值之间的误差。mASE越低代表它们的模型性能更好。
一.mit-bevfusion
1.网络结构对比:
2.实验结果对比:
(1).表一:
:重新实现,意味着我们重新实现某个系统、算法或方法。
:增强技术,是一种在模型推理(测试)过程中对输入数据进行增强的技术。
:模型集成,结合多个独立训练的模型的预测结果,以产生更准确、更鲁棒的整体预测。
优点 : 1).实现了最先进的3D物体检测性能 ,没有花哨的装饰,打破了将相机特征装饰到LiDAR点云上的惯例。
2). 计算成本降低,效果增加。(在计算成本降低1.5-2倍的情况下,mAP和NDS至少提高1.3%。)
3).可以在更小的mac( 乘加运算 **)**上面实现相同的性能,将mac的减小转化为可测量的加速。
(2).表二:
1).Modality:指代不同的数据类型或特征模态
2).Drivable(驾驶)、行人(Pedestrian)、人行横道(Crosswalk)、停车线(Stop Line)、停车场(Carpark)、分隔线(Divider)等不同元素的数据集、场景或任务
3). Mean:指代这些元素的平均值或综合特征。
优点 : 对于**nuScence(val)**上不同类别上都有一致的改进。
我感觉从这个模态对比(Modality)看出3D点云的加持 效果不是特别大,本论文采用的是VoxelNet(体素化)作为我们的LiDAR雷达骨干,或许可以采用其他的骨干试一下。
(3).表三:
:BEVDet-Tiny和LSS的变体,具有更大的主干和视图转换器
由上表可以看出: BEVFusion在不同的照明和天气条件下都是稳健的,在具有挑战性的雨天和夜间场景下,显著提高了单模态基线(灰色标记)的性能。
优点 : BevFusion整体不受照明和天气影响。
1.在不同的物体尺寸(a) ,物体距离下(b) 和激光雷达稀疏度(c),BEVFusion始终优于最先进的单模态和多模态探测器,特别是在更具挑战性的环境下(即更稀疏的点云、远的物体)
2.BEVFusion是从图像或场景的几何特征中提取信息
- PointPainting仅修饰前景激光雷达点 MVP仅致密前景3D对象 。这两种方法对分割地图组件都没有帮助 ,这两种方法都假设激光雷达应该是传感器融合中更有效的方式 ,根据我们在表2中的观察,这是不正确的
(4).表四:消融实验
(a):表示BEVFusion在激光雷达检测和相机分割 都有很大改进 -->共享BEV空间中的传感器融合对几何和面向语义的任务都是有益的。
(b)和(c)表可以看出,BEVFusion的检测变体 在体素和图像分辨率 下都具有良好的可扩展性,而当图像分辨率高于256x704时,BEV分割性能趋于平稳。
(d)表中,使用来自1/8输入分辨率的FPN特征为检测和分割提供了最佳性能,进一步增加计算量是没有帮助的。
(e)表中,表示图像和激光雷达输入的增强有助于提高BEVFusion的性能。
(f)表中,b表明我们的BEVFusion是通用的,适用于不同的主干
3.总结:
优点: 1.计算成本低,测量延迟低。
2.充分利用了相机的所有特征 -->可以在更小的mac上面实现相同的性能,将mac的减小转化为可测量的加速。
缺点: 1.在同时训练多个任务时,BEVFusion 的效果或性能有所减弱。
2.深度估计准确性需要优化
二.bevformer
1.网络结构回顾:
2.实验结果对比:
(1).表一:
:在具有额外数据的深度估计任务上进行预训练的。
**:**不利用BEV编码器中的时间信息。
表一 可以看出采用不同的Backbone对比,V2-99是具有额外深度估计任务(除了原始输入数据外,还利用其他额外信息或数据来帮助提高深度估计任务的准确性或稳定性。)
缺点: BEVFormer的深度估计不准。
(2).表二
**:**不利用BEV编码器中的时间信息。
优点 : 时间信息(BEVFormer和BEVFormer-S对比)在多相机检测的速度估计中起着至关重要的作用。
(3).表三:
:只使用前置摄像头,只考虑前置摄像头视场内的物体标签
:我们通过将ATE和AAE设置为1来计算NDS分数
这里只使用前置摄像头,意思可能是不依赖雷达数据。
只使用前置摄像头(多视角图片)比bevformer的比例高 意味着Lidar方法或者图片特征与雷达特征融合效果不太好。
缺点: 基于摄像头的方法与基于lidar的方法在效果和效率上还有特别的差距
(4).表四: 训练分割仍无联合和不联合的比较
:我们使用VPN 和Lift-Splat 代替我们的BEV编码器进行一个比较,任务头比较
:来自他们论文的结果
优点:1.与单独训练任务相比,多任务学习通过共享更多模块节省了计算成本,减少了推理时间。
2.我们证明了由BEV编码器生成的BEV特征 可以很好地适应不同的任务 ,并且具有多任务头的模型训练 在检测任务和车辆分割方面表现更好。
缺点: 联合训练的模型在道路和车道分割方面的表现不如单独训练的模型。
(5).表五:不同编码器对nuScenes数据集不同方法的检测结果
:我们使用VPN 和Lift-Splat 替代我们模型的BEV编码器进行比较
::我们在空间交叉注意 中使用全局注意力 来训练BEVFormer-s ,并且使用fp16权值 来训练模型。此外,我们只采用骨干的单尺度特征 ,并将BEV查询的空间 形状设置为100X100以节省内存.
:我们仅通过去除预测偏移量和权重 ,将可变形注意力 的交互目标从局部区域降级到参考点。
观察 Attention
优点 : **注意力(稀疏注意力)显著优于其他注意机制。**全局注意力消耗了太多的GPU内存,并且点交互具有有限的接受域。稀疏注意力实现了更好的性能,因为它与先验确定的感兴趣区域交互,平衡了接受域和GPU消耗。
三.DETR3D
1.网络结构回顾:
2.实验结果对比:
(1).表一:
:增加了测试时间
:有测试时间增强、更多纪元和模型集成
:从FCOS3D主干初始化,检测头随机初始化
:使用CBGS训练
:CenterNet使用定制的骨干 DLA
- 上表可以看出:我们与以前最先进的方法CenterNet 和 FCOS3D 进行了比较,CenterNet 是种无锚点二维检测方法 ,可在高分辨率特征图 中进行密集预测 。 FCOS3D 采用FCOS流水线 进行逐像素预测 。
a. 这些方法都将 3D 对象检测变成了 2D 问题 ,并且在这样做时忽略了场景几何和传感器配置。
b. 为了执行多视图目标检测,这些方法必须独立处理每个图象;并使用每个图像和全局 NMS 分别去除每个视图和重叠区域中的冗余框
c. 密集预测: 模型会对图像或特征图中的每个像素位置进行预测或推理。模型会为整个输入图像或特征图中的每个像素生成一个输出,通常是一个密集的预测矩阵或图像。
**逐像素预测:**强调对每个像素位置独立进行预测。在逐像素预测中,模型会为每个像素位置输出一个预测结果,无论这个像素的上下文如何。
- 优点 :即使我们不使用任何后处理,我们的方法也优于这些方法。
- 缺点:我们的方法在mATE 方面的表现比 FCOS3D 差。
原因:1. FCOS3D 直接预测边界框深度,从而导致对对象平移的强监督。
2.FCOS3D对不同的边界框参数使用分离头,这可以提高性能。
(2).表二:
:从 DD3D 检查点初始化
:从在额外数据上预先训练的主干初始化。
我们的方法使用与 DD3D相同的骨干进行公平比较。
优点:我们的方法优于所有现有方法。
(4).表四: 与伪激光雷达方法的比较
- 由表四可得,即使深度估计是由最先进的模型生成的,这种伪 LiDAR 方法的性能也明显不及我们的方法。
原因: 伪 LiDAR 目标检测器会遭受由不准确的深度预测引入的复合误差,这反过来会过度训练数据并且无法很好地推广到其他分布。
- 优点: 1.具有更高的三维物体检测性能,在处理深度信息和目标检测任务时可能更为有效
2.更少受到由不准确深度预测引入的复合误差的影响,这可能有助于避免模型在训练数据上过度拟合,并提高在不同数据分布下的泛化能力。
(5).表五: 对不同层检测结果的评估
这表明选代改进确实显着提高了性能。这表明选代改进对于充分利用我们提出的架构既有益又必要
(6).表六: 对不同查询次数的结果
增加查询数量会持续提高性能,直到它在 900 时达到饱和。
3.总结:
我们提出了一种新范例来解决**从 2D 图像恢复 3D 信息的不适定逆问题。**在这种情况下,输入信号缺乏,模型在没有从数据中学习先验的情况下做出有效预测的基本信息。
方法: 我们在 3D 空间中运行 并根据需要使用 反向投影来检索图像特征。
四.PETR
1.网络结构回顾:
2.实验结果对比:
(1).表一:
: 是从FCOS3D主干初始化的,即使用 FCOS3D 模型的主干网络(backbone)作为其他模型的初始化权重。
总结 : 1.PGD由于有明确的深度监督 ,其mATE 相对较低,深度估计比较好。
2.PETR如果利用FCOS3D模型中学习到的特征和权重,那么它的各方面性能都是最佳的。但是它的mATE比较高 那么它的深度估计应该不太好。
(2).表二:
:使用外部数据训练。
:测试时间增加。
总结 : 1.PETR 在mAP和NDS的上面分别超过BEVDet( 在使用相同的Backbone上面**)**
2.如果在PETR不采用外部数据训练的情况下,使用Swing-B的Backbone效果是最好的。
采用VOVNetV2骨干网的PETR实现了50.4%的NDS和44.1%的mAP。PETR是第一个超过50.0% NDS的基于视觉的方法。
(3).图5:
总结 : 1.PETR 在前12次内收敛速度相对于DETR3D慢,可以得到PETR需要一个相对较长的训练计划能完全收敛。
原因是PETR通过全局注意学习3D相关性,而DETR3D在局部区域内感知3D场景。
2.进一步展示了不同输入大小图像下,PETR的检测性能和速度。
(4).表3:
从表中可以看出这个三维位置嵌入的影响
优点: 3D PE在感知3D场景之前可以提供一个强大的位置,深度估计在这几个是最好的。2D的比较差,2D和MV和3D融合会让mATE增加,导致深度估计比较差。
(5).表4: 不同离散化方法和RoI范围的有效性
RoI范围**(-61.2m,-61.2m,-10.0m,61.2m,61.2m,10.0m)**的性能优于其他区域。
(6).表5:多层感知(MLP)将3D坐标转换为3D位置嵌入的效果
可以看出,与没有MLP的基线相比,使用简单MLP的网络在NDS 和mAP上的性能分别提高了4.8%和5.3%(将2D特征的通道数对齐到D x4)。
当使用两个3 x3卷积层时,由于3 x3卷积破坏了2D特征和3D位置之间的对应关系,模型将不会收敛。
将2D图像特征与3D PE融合的 不同方法。级联操作 实现了与加法相似 的性能,同时超过了乘法融合。
显示了不同锚点生成查询的效果 ,比较了四种类型的锚点
"None",直接使用一组可学习的参数作为对象查询,没有锚点。对象查询的全局特征不能使模型收敛。
"Fix-BEV"是在BEV空间中以39x39的个数生成的固定锚点。
"Fix-3D"在3D世界空间中固定的锚点数量为16 x16 x6。
"Learned-3D"是在3D空间中定义的可学习锚点。
我们发现**"Fix-BEV"和"Fix-3D"的性能** 都低于"Learned-3D"锚点。
五.BEVDet
1.网络结构回顾:
2.实验结果对比:
(1).表一:
这些都是简要的结构说明
(2).表二:
:从FCOS3D主干初始化
: 带有测试时增强
:带有模型集成
FPS:每秒帧数 GFLOPs:计算预算
BEVDet-Tiny(模型轻量化版本): 1.图像输入分辨率小,计算预算比较小,准确率高
2.比FCOS3D和DETR3D准确率高
BEVDet-Base:推理速度快,计算预算高,它的直接设计是BVEDet比现有的范例运行更快
(3).表三:
FCOS3D和PGD等基于图像视图的方法相比,BEVDet在预测目标属性方面表现不佳。
(4).表四: 不同配置的性能 将centerpoint 的头部输入特征改为试图转换器生成的特征
- IDA 应用图像视图空间数据增强
- BE BEV的编码器
- BDA 是BEV空间的数据增强
A:不使用增强策略 mAP精度在epoch4就达到了饱和 达到了23% 随后便进入了过拟合
在epoch20下的性能仅为17.4% 比最佳性能下降了-5.6% 远远不如基于图像试图的方法FCOS3D(29.5%)
B:使用图像视图空间数据增强(IDA) 训练过程的饱和度到epoch10% 最后的得分为17.8%
最佳性能比A还要差
C:具有空间数据增强(BDA)的配置,在epoch15时达到峰值,mAP为26.2%,最终在epoch20时获得23.6%的mAP
在BEVDet训练中,BDA比IDA发挥更重要的作用
D:结合图像视图空间数据增强(IDA)和空间数据增强(BDA),mAP性能在epoch 17达到峰值,达到31.6%
与基线相比,组合数据增强策略在峰值点提供了+8.6%mAP的显着性能提升
当BDA不存在时,IDA对性能的影响为负,反之则为正。
D与H比较: BE将BEVDet的精度提高了+1.7% mAP表明它很重要。
F和G比较: 当 BE存在时 ,当 BDA不存在时 , IDA可以提供积极的影响
结论: BEV编码器的强感知能力只能建立在BDA的基础上
(5).表五:
我们将Scale-NMS 与CenterPoint提出的经典NMS和Circular-NMS进行了分类比较。
Scale-NMS的精度总体较高,显著提高了行人(+4.8% AP)和交通锥(+7.5% AP)等占用面积较小的类别的性能。
(6).表六:
输入图像的分辨率对精度影响较大,输入尺寸为1408x512的BEVDet(E)比输入尺寸为704x256的BEVDet(C)具有+4.5%的mAP优势
缺点: 随着输入尺寸的增加,BEVDet计算预算的增量是有限的。
因为BEV编码器的计算预算不变 是固定的
(7).表七: 比较两种分辨率的不同效果
可以看出不同骨干采用越高的分辨率 效果更好。
六.BEVDistill
1.网络结构回顾:
2.实验结果对比:
(1).表一:
前提 **:**Bevformer 主要聚焦于视觉特征的提取,而 Bevformer-T 则扩展了其功能,结合了语言处理能力,以处理更复杂的多模态任务。
优点 : 分别超过3.4/2.7NDS 和3.4/2.3mAP -> 所提方法在单帧和多帧设置下的有效性和泛化性
其他 **:**1.Fit-Net没有带来任何增强,甚至会使最终性能恶化,即-1.2%的NDS
2.Set2setWang由于没有考虑不同模态特征之间的差异,检测精度(-1.3%NDS)上受到了打击
3.UVTR 是第一个利用3D点进行多视图3D物体检测的工作 NDS提高了0.8
4.MonoDistill 将其单视角版本扩展到多视角版本,提高了0.7 NDS
(2).表二: 使用模型的选择
由图可知:
借鉴了BEVDepth的BEVDet的重新实现 是效果比较好的
所以使用最终采用的模型是BEVdepth
(3).表三: bev蒸馏中各组分的有效性
a: 不使用蒸馏
b:使用密集蒸馏
c:使用稀疏蒸馏
d:两种蒸馏都使用
总结:可以看出密集蒸馏比稀疏蒸馏好 但是两种蒸馏结合它的精度更高。
(4).表四:
FitNet 在同等监督下提取2D和3D特征中的所有像素,几乎没有产生改进。
FGD 是二维目标检测中最先进的知识蒸馏方法。但是它忽略了不同模态之间跨特征的发散,因此得到了较差的性能。
UVTR 直接模拟特征,但它只选择正区域(查询点)进行特征模仿。
总结上述: BEVDistill考虑了模态发散和区域重要性 来进行特征模仿 ,提供了最高的精度
(5).表五:
GT-Center : 真实目标中心点。
Query-Center : 模型生成的预测中心点。
Pred-Heatmap : 模型输出的热图,表示目标存在的概率。
GTG-Heatmap : 基于真实标签生成的高斯热图,辅助模型训练。
1.采用GT-Center ( 真值对象的中心点**)或者** 查询参考点(查询中心) 作为模拟实例**-->这样的策略直接舍弃了大部分区域,这些区域可能包含有用的信息**
2.因此,我们试图用热图掩码将这种"硬"决策转换为"软"决策(热图掩码通过为每个位置分配一个概率值来实现更灵活的决策方式),热图掩码可以是来自教师(Pred-Heatmap)或地面真实热图(GT-Heatmap)的模型分类预测
(6).表六:
发现问题交叉熵是导致性能下降的关键问题 所以将它们替换为InfoNCE 这样效果更好。
(7).表七:不同的 critic 模型和生成样本对对模型性能的影响
我们首先采用经典的InfNCE损耗,它提供了最大的改进。
七.BEVDepth
1.网络结构回顾:
2.实验结果对比:
(1).表一:
结果: 1. 用随机的软化值(random soft)替换
后 精度下降3.7%(从28.2% 到24.5%)
即使用于特征解投影的深度 被灾难行的破坏(在深度学习中处理特征表示时需要谨慎,以防止模型在学习新任务时失去对旧任务的能力)但是深度分布的软性质有助于解投影到正确的深度位置。
2.将软随机深度替换为硬随机深度,可以观察出它的下降更大。
只要正确的位置的深度有激活,它的探测头就可以工作。所以就解释了为什么有的大部分的学习深度较差 但它的检测map是合理的
(2).表二:
AbsRel :是绝对相对误差的意思,DL是深度学习的缩写。SqRel:度量预测值与真实值之间相对误差的平方
总结 : 1.当检测器在没有深度损失(不考虑深度学习特有的损失函数或方法) 的情况下进行训练时,它仅通过学习部分深度来检测对象。
2.在最佳匹配协议上应用深度损失后,学习到的深度得到了进一步的改进。
结果表明:隐式学习的深度是不准确的,远远不能令人满意。
(3).表三:
Base Detector :基础检测器
Enhanced Detector : 增强型检测器
总结: 在不同的正阈值下,增强型检测器的性能始终优于另一个.
(4).表四:
DL、CA、DR和MF分别表示深度损失 、相机感知 、深度细化模块 和多帧。
总结:全部使用效果更好
(5).表五:
BCE和L1 Loss是两种常见的损失。
我们将在深度网中使用这两种不同的损失的影响,发现不同的深度损失几乎不会影响最终的检测性能。
(6).表六:
在
维度上面使用1X3 conv 信息并不沿深度轴进行交换 检测性能几乎没有受影响 在使用3x3conv时候 揭示了模块的本质。
(7).表七:
总结:BEVDepth-R101-DCN可以在分辨率小的图像下,有较高的精度。
(8).表八:
BEVDepth使用预训练的VovNet作为主干。输入图像的分辨率设置为640 X1600。
使用ConvNexT作为主干
优点:无需额外数据,BEVDepth达到60.9% NDS