BEV：典型BEV算法总结

核心差异：

1. 视角转换

1）显示视角转换：FastBEV（IPM），BEVDepth（LSS）；

2）隐式视角转换：DETR3D（query-based+单参考点采样），PETR（query-based+3D位置编码，标准Transformer），BEVFormer（显示稠密BEV query映射），SparseBEV（显示稀疏BEV query映射），Sparse4D（实例级query-based+多个参考点采样）；

2. head设计

query-based（DETR3D，PETR，BEVFormer，Sparse4D），BEV-feature（FastBEV，BEVDepth，SparseBEV），voxel（SurroundOcc）；

对比总结

算法代表	核心特点	解决的问题	视角转换，head设计	多任务（OD / OCC），时序扩展，潜力，依赖项，算力
FastBEV	1. 显式 IPM 几何投影，高效率，易工程落地；	1. 解决 BEV 方法精度高但推理慢、部署重的问题。	1. 显式投影，将图像特征通过几何关系映射到 BEV 网格； 2. 基于 BEV feature 的 dense head。	1. OD：强；OCC：弱到中等。 2. 时序扩展：弱。 3. 在实时部署、量产导向上潜力大。 4. 依赖标定质量和 BEV 网格设计。 5. 算力需求：低。
BEVDepth	1. 显式引入深度估计，增加深度信息；	1. 解决图像到 BEV 转换中深度不准导致空间对齐差的问题。	1. 显式深度估计下的 3D 视角转换； 2. 基于 BEV feature 的 dense head。	1. OD：强；OCC：中等。 2. 时序扩展：中。 3. 平衡性能与算力。 4. 依赖相机标定与深度估计质量。 5. 算力需求：中等。
DETR3D	1. query-based 的多视角 3D 检测； 2. 不显式构建 dense BEV； 3. NMS free，更优雅。	1. 多相机 3D 检测自主融合； 2. 减少 BEV 映射流程； 3. 较小后处理复杂度。	1. 隐式视角转换：query-based 的 3D 参考点特征采样（单点）； 2. query-based 检测 head。	1. OD：强；OCC：弱，不适合稠密场景表示。 2. 时序扩展：弱。 3. 多任务平台潜力有限。 4. 强依赖相机标定与 query 设计。 5. 算力需求：中等。
PETR	1. 隐式构建图像深度：为每个图像像素生成 3D 深度位置编码（ego 系）； 2. 标准 attention 更简洁：图像特征 3D 位置编码与图像特征相加得到 K，图像特征为 V，标准 query + query_pose 为 Q。	1. 为 2D 特征增加隐式深度信息； 2. 不需要显式深度监督，避免显式深度误差传递； 3. 更适合 query-based 的检测范式。	1. 隐式视角转换； 2. query-based 检测 head。	1. OD：强；OCC：弱，比 DETR3D 空间建模更强，但不如 BEVFormer / BEVDepth。 2. 时序扩展：弱。 3. 多视角 3D 检测潜力较强。 4. 强依赖位置编码设计与相机标定。 5. 算力需求：中等。
BEVFormer	1. 显式构建 BEV 网格，引入 BEV query，通过 spatial cross-attention 将 2D 的 BEV 坐标映射为多个 3D 参考点，通过线性映射得到参考点的可学习偏移量，与参考点相加构成采样点坐标； 2. deformable attention：多个稀疏的全局特征采样，学习采样点偏移量及对应的权重系数； 3. 支持时序融合。	1. 减少传感器参数误差对模型性能影响； 2. 减小对地平假设的依赖； 3. 对不同传感器参数的鲁棒性更强。	1. 显式 BEV query 视角转换； 2. query-based 检测 head。	1. OD：强；OCC：强。 2. 时序扩展：强。 3. 适合向地图与规划扩展。 4. 依赖较强的工程化能力。 5. 算力需求：高。
SparseBEV	1. 构建稀疏的 BEV 关键点，提取关键目标特征信息； 2. 保留 BEV 中间表示，方便时序和多任务扩展。	1. 解决 dense BEV 表示计算量大、冗余区域太多的问题； 2. 是 query-based 与稠密 BEV 的折中。	1. 构建稀疏 BEV 表示，只在关键区域进行计算和更新； 2. 稀疏 BEV detection head，兼顾 BEV 结构和效率。	1. OD：强；OCC：中。 2. 时序扩展：弱。 3. 在精度与效率平衡方面很有潜力，适合工程优化。 4. 强依赖稀疏区域筛选策略。 5. 算力需求：低。
Sparse4D	1. 用稀疏实例表示，不显式构建 dense BEV； 2. 预测动态目标速度，进行多帧关联； 3. 维护每个目标的跨时间状态并持续更新； 4. 构建 13 个关键点（中心点、6 个面、6 个随机点）进行特征采样。	1. 解决 dense BEV 计算重、时序建模成本高的问题。	1. 隐式视角转换：偏稀疏实例级视角聚合； 2. 稀疏实例 head，围绕目标级表示做检测和时序更新。	1. OD：强；OCC：弱。 2. 时序扩展：强。 3. 在动态目标、时序建模、高效实例级感知上潜力很大。 4. 依赖时序关联质量、训练策略设计。 5. 算力需求：中等。
SurroundOcc	1. 从检测走向 3D occupancy 场景理解，强调完整空间表示。	1. 解决只靠目标框难以表达复杂场景结构的问题，尝试恢复完整 3D 占用状态。	1. 显式 3D voxel / occupancy 空间映射； 2. occupancy head，预测体素占用和语义，而非仅输出目标框。	1. OD：中等；OCC：强。 2. 时序扩展：中。 3. 是世界模型、场景理解、高阶自动驾驶的重要方向。 4. 强依赖高质量标注。 5. 算力需求：高。

选型推荐：

如果你更关心	更推荐先看
单任务 3D 检测	`DETR3D`、`PETR`
高精度 BEV 多任务	`BEVFormer`、`BEVDepth`
实时部署或量产	`FastBEV`、`SparseBEV`
时序动态目标	`Sparse4D`、`BEVFormer`
完整 3D 场景理解或 OCC	`SurroundOcc`