纯视觉下的稀疏场景表示
算法动机&开创性思路
算法动机:
- 依赖于计算成本高昂的鸟瞰图(BEV)特征表示。
- 预测和规划的设计过于直接,没有充分利用周围代理和自我车辆之间的高阶和双向交互。
- 场景信息是在agent周围提取,没有考虑到自我车辆对周围代理的影响,忽略了自我车辆在运动预测和规划中的作用。
- 运动预测和规划都被视为多模态问题,但现有方法只预测确定性的轨迹,没有考虑到内在的不确定性。
开创性思路:为了解决以上问题,
1.通过稀疏场景表示和重新设计的预测与规划任务,提高了自动驾驶系统的性能和效率,特别是在规划安全性方面。
2.SparseDrive包含对称的稀疏感知模块和并行运动规划器,通过有效的设计,实现了在所有任务中的性能提升,同时保持了更高的训练和推理效率。
3.修改了运动预测和规划之间的巨大相似性,串级模块,提出了一种分层规划选择策略
主体结构
输入:6图感知,输出:自车规划模块以及其他Agent规划模块
+---------------------+
| SparseDrive |
+---------------------+
| use_grid_mask |
| use_deformable_func|
+---------------------+
| img_backbone (ResNet)|
| img_neck (FPN) |
| depth_branch |
+---------------------+
| head |
+---------------------+
| det_head (Sparse4DHead)|
| map_head (Sparse4DHead)|
| motion_plan_head (MotionPlanningHead)|
+---------------------+
包括特征提取(ImageEncoder),对称稀疏感知(SymmetricSparsePerception),平行运动规划器(ParallelMotionPlanner)

对称稀疏感知,主要包括稀疏检测,稀疏在线建图,稀疏跟踪模块
图像编码:
给定多视图图像,图像编码器(包括主干网络和颈部)首先将图像编码为多尺度特征图,其中S是尺度数,N是camera图数
对称稀疏感知模块:
如下图,特征图被聚合成2组实例,来学习驾驶场景稀疏表示,俩组实例分别代表周围智能体Initialized Detection Instances 是数据集里的anchor,(x,y,z,lnw,lnh,lnl,sin yaw,cos yaw,vx,vy,vz)和地图元素Initialized Map Instances (x0,y0,x1,y1...xNp-1,yNp-1)
Feature Maps是6张图特征

平行运动规划器:
自车Ego轨迹预测和其他Agent的轨迹预测应该合并成一个任务,具有相互影响
Ego Insitance初始化:和其他模Agent不一样,在相机视角下,是处于盲区的,Ego的特征是采用前视视角下图像特征图,并且在ResNet在输出多尺度特征取得最小特征图后平均池化去作为Ego特征初始化,Ego Anchor对于x,y,yaw是每一帧定义好,但是速度,加速度会让主车根据运动属性使得模型学习shortcut,不利于学习主车自主交互,所以用T-1时刻状态进行预测,作为辅助任务进行Loss监督

新的范式:
-
稀疏场景表示(Sparse Scene Representation):
- SparseDrive采用了稀疏表示来学习驾驶场景的完整表示,这种表示通过对称的稀疏感知模块实现,该模块统一了检测、跟踪和在线映射任务。
-
对称稀疏感知模块(Symmetric Sparse Perception Module):
- 该模块通过结构对称性,将检测、跟踪和在线映射集成到一个模型架构中,学习场景的稀疏表示。
-
并行运动规划器(Parallel Motion Planner):
- SparseDrive的并行运动规划器同时进行运动预测和规划,考虑了自我车辆和周围代理之间的高阶和双向交互。
-
层次化规划选择策略(Hierarchical Planning Selection Strategy):
- 该策略包括一个碰撞感知重分模块(Collision-Aware Rescore Module),用于从多模态轨迹提议中选择一个合理且安全的轨迹作为最终规划输出。
-
端到端学习(End-to-End Learning):
- SparseDrive采用多阶段训练方法,首先分别训练稀疏感知模块,然后在第二阶段联合训练稀疏感知模块和并行运动规划器,实现端到端优化。
-
效率优化:
- 论文中提出的SparseDrive在保持高性能的同时,还实现了更高的训练和推理效率。
通过这些设计,SparseDrive能够在所有任务中实现比之前最先进方法更高的性能,同时在训练和推理效率上也有显著提升。具体来说,SparseDrive在nuScenes基准测试中超越了先前的最先进方法,尤其是在安全性关键指标碰撞率方面,同时保持了更高的训练和推理效率
损失函数
Loss : L = Ldet + Lmap + Lmotion + Lplan + Ldepth
Stage1:从头开始训练对称稀疏感知模块,以学习稀疏场景表示
Stage2:稀疏感知模块和并行运动规划期一起训练
性能对比
3D detection results,Multi-object tracking results ,Online mapping results
Prediction Results,Planning results
效率对比,平行运动规划器中的各模块消融实验
部署训练:
端到端自动驾驶模型SparseDrive部署过程-CSDN博客
总结:
A: 这篇论文提出了SparseDrive,一种新颖的端到端自动驾驶范式,旨在通过稀疏场景表示和优化的任务设计来提高自动驾驶系统的性能和效率。以下是论文的主要内容总结:
-
问题识别:传统的自动驾驶系统采用模块化设计,导致信息丢失和误差累积。现有的端到端方法在性能和效率上,特别是在规划安全性方面,仍有不足。
-
SparseDrive范式:提出了SparseDrive,一种新的端到端自动驾驶范式,它利用稀疏表示来统一处理检测、跟踪、在线映射、运动预测和规划任务。
-
关键组件:
- 对称稀疏感知模块:通过结构对称性,同时处理检测、跟踪和在线映射任务。
- 并行运动规划器:同时进行运动预测和规划,考虑自我车辆与周围代理的交互。
-
层次化规划选择策略:提出了一种策略,通过碰撞感知重分模块来选择安全合理的轨迹。
-
端到端学习:采用分阶段训练方法,先分别训练感知模块,然后联合训练感知和规划模块,实现端到端优化。
-
实验验证:在nuScenes数据集上进行了广泛的实验,证明了SparseDrive在3D检测、多目标跟踪、在线映射、运动预测和规划任务中的性能均优于现有最先进方法。
-
效率提升:SparseDrive在保持高性能的同时,显著提高了训练和推理的效率。
-
消融研究:通过消融实验,展示了SparseDrive设计选择的有效性,包括运动规划器的设计、碰撞感知重分模块和多模态规划的重要性。
-
未来工作:论文指出了端到端模型在性能、数据集规模、安全性评估等方面的局限性,并提出了未来探索的方向。
-
代码开源:论文承诺将SparseDrive的代码开源,以促进未来研究。
SparseDrive通过其创新的设计和方法,在自动驾驶领域提供了一种有效的解决方案,推动了端到端自动驾驶技术的发展
==================================================================================================================================================
Code学习
用mmdet3d_plugin
Stage1:从头开始训练对称稀疏感知模块,以学习稀疏场景表示
sparsedrive_small_stage1
