核心差异:
1. 视角转换
1)显示视角转换:FastBEV(IPM),BEVDepth(LSS);
2)隐式视角转换:DETR3D(query-based+单参考点采样),PETR(query-based+3D位置编码,标准Transformer),BEVFormer(显示稠密BEV query映射),SparseBEV(显示稀疏BEV query映射),Sparse4D(实例级query-based+多个参考点采样);
2. head设计
query-based(DETR3D,PETR,BEVFormer,Sparse4D),BEV-feature(FastBEV,BEVDepth,SparseBEV),voxel(SurroundOcc);
对比总结
| 算法代表 | 核心特点 | 解决的问题 | 视角转换,head设计 | 多任务(OD / OCC),时序扩展,潜力,依赖项,算力 |
|---|---|---|---|---|
| FastBEV | 1. 显式 IPM 几何投影,高效率,易工程落地; | 1. 解决 BEV 方法精度高但推理慢、部署重的问题。 | 1. 显式投影,将图像特征通过几何关系映射到 BEV 网格; 2. 基于 BEV feature 的 dense head。 | 1. OD:强;OCC:弱到中等。 2. 时序扩展:弱。 3. 在实时部署、量产导向上潜力大。 4. 依赖标定质量和 BEV 网格设计。 5. 算力需求:低。 |
| BEVDepth | 1. 显式引入深度估计,增加深度信息; | 1. 解决图像到 BEV 转换中深度不准导致空间对齐差的问题。 | 1. 显式深度估计下的 3D 视角转换; 2. 基于 BEV feature 的 dense head。 | 1. OD:强;OCC:中等。 2. 时序扩展:中。 3. 平衡性能与算力。 4. 依赖相机标定与深度估计质量。 5. 算力需求:中等。 |
| DETR3D | 1. query-based 的多视角 3D 检测; 2. 不显式构建 dense BEV; 3. NMS free,更优雅。 | 1. 多相机 3D 检测自主融合; 2. 减少 BEV 映射流程; 3. 较小后处理复杂度。 | 1. 隐式视角转换:query-based 的 3D 参考点特征采样(单点); 2. query-based 检测 head。 | 1. OD:强;OCC:弱,不适合稠密场景表示。 2. 时序扩展:弱。 3. 多任务平台潜力有限。 4. 强依赖相机标定与 query 设计。 5. 算力需求:中等。 |
| PETR | 1. 隐式构建图像深度:为每个图像像素生成 3D 深度位置编码(ego 系); 2. 标准 attention 更简洁:图像特征 3D 位置编码与图像特征相加得到 K,图像特征为 V,标准 query + query_pose 为 Q。 | 1. 为 2D 特征增加隐式深度信息; 2. 不需要显式深度监督,避免显式深度误差传递; 3. 更适合 query-based 的检测范式。 | 1. 隐式视角转换; 2. query-based 检测 head。 | 1. OD:强;OCC:弱,比 DETR3D 空间建模更强,但不如 BEVFormer / BEVDepth。 2. 时序扩展:弱。 3. 多视角 3D 检测潜力较强。 4. 强依赖位置编码设计与相机标定。 5. 算力需求:中等。 |
| BEVFormer | 1. 显式构建 BEV 网格,引入 BEV query,通过 spatial cross-attention 将 2D 的 BEV 坐标映射为多个 3D 参考点,通过线性映射得到参考点的可学习偏移量,与参考点相加构成采样点坐标; 2. deformable attention:多个稀疏的全局特征采样,学习采样点偏移量及对应的权重系数; 3. 支持时序融合。 | 1. 减少传感器参数误差对模型性能影响; 2. 减小对地平假设的依赖; 3. 对不同传感器参数的鲁棒性更强。 | 1. 显式 BEV query 视角转换; 2. query-based 检测 head。 | 1. OD:强;OCC:强。 2. 时序扩展:强。 3. 适合向地图与规划扩展。 4. 依赖较强的工程化能力。 5. 算力需求:高。 |
| SparseBEV | 1. 构建稀疏的 BEV 关键点,提取关键目标特征信息; 2. 保留 BEV 中间表示,方便时序和多任务扩展。 | 1. 解决 dense BEV 表示计算量大、冗余区域太多的问题; 2. 是 query-based 与稠密 BEV 的折中。 | 1. 构建稀疏 BEV 表示,只在关键区域进行计算和更新; 2. 稀疏 BEV detection head,兼顾 BEV 结构和效率。 | 1. OD:强;OCC:中。 2. 时序扩展:弱。 3. 在精度与效率平衡方面很有潜力,适合工程优化。 4. 强依赖稀疏区域筛选策略。 5. 算力需求:低。 |
| Sparse4D | 1. 用稀疏实例表示,不显式构建 dense BEV; 2. 预测动态目标速度,进行多帧关联; 3. 维护每个目标的跨时间状态并持续更新; 4. 构建 13 个关键点(中心点、6 个面、6 个随机点)进行特征采样。 | 1. 解决 dense BEV 计算重、时序建模成本高的问题。 | 1. 隐式视角转换:偏稀疏实例级视角聚合; 2. 稀疏实例 head,围绕目标级表示做检测和时序更新。 | 1. OD:强;OCC:弱。 2. 时序扩展:强。 3. 在动态目标、时序建模、高效实例级感知上潜力很大。 4. 依赖时序关联质量、训练策略设计。 5. 算力需求:中等。 |
| SurroundOcc | 1. 从检测走向 3D occupancy 场景理解,强调完整空间表示。 | 1. 解决只靠目标框难以表达复杂场景结构的问题,尝试恢复完整 3D 占用状态。 | 1. 显式 3D voxel / occupancy 空间映射; 2. occupancy head,预测体素占用和语义,而非仅输出目标框。 | 1. OD:中等;OCC:强。 2. 时序扩展:中。 3. 是世界模型、场景理解、高阶自动驾驶的重要方向。 4. 强依赖高质量标注。 5. 算力需求:高。 |
选型推荐:
| 如果你更关心 | 更推荐先看 |
|---|---|
| 单任务 3D 检测 | DETR3D、PETR |
| 高精度 BEV 多任务 | BEVFormer、BEVDepth |
| 实时部署或量产 | FastBEV、SparseBEV |
| 时序动态目标 | Sparse4D、BEVFormer |
| 完整 3D 场景理解或 OCC | SurroundOcc |