BEV:典型BEV算法总结

核心差异:

1. 视角转换

1)显示视角转换:FastBEV(IPM),BEVDepth(LSS);

2)隐式视角转换:DETR3D(query-based+单参考点采样),PETR(query-based+3D位置编码,标准Transformer),BEVFormer(显示稠密BEV query映射),SparseBEV(显示稀疏BEV query映射),Sparse4D(实例级query-based+多个参考点采样);

2. head设计

query-based(DETR3D,PETR,BEVFormer,Sparse4D),BEV-feature(FastBEV,BEVDepth,SparseBEV),voxel(SurroundOcc);

对比总结

算法代表 核心特点 解决的问题 视角转换,head设计 多任务(OD / OCC),时序扩展,潜力,依赖项,算力
FastBEV 1. 显式 IPM 几何投影,高效率,易工程落地; 1. 解决 BEV 方法精度高但推理慢、部署重的问题。 1. 显式投影,将图像特征通过几何关系映射到 BEV 网格; 2. 基于 BEV feature 的 dense head。 1. OD:强;OCC:弱到中等。 2. 时序扩展:弱。 3. 在实时部署、量产导向上潜力大。 4. 依赖标定质量和 BEV 网格设计。 5. 算力需求:低。
BEVDepth 1. 显式引入深度估计,增加深度信息; 1. 解决图像到 BEV 转换中深度不准导致空间对齐差的问题。 1. 显式深度估计下的 3D 视角转换; 2. 基于 BEV feature 的 dense head。 1. OD:强;OCC:中等。 2. 时序扩展:中。 3. 平衡性能与算力。 4. 依赖相机标定与深度估计质量。 5. 算力需求:中等。
DETR3D 1. query-based 的多视角 3D 检测; 2. 不显式构建 dense BEV; 3. NMS free,更优雅。 1. 多相机 3D 检测自主融合; 2. 减少 BEV 映射流程; 3. 较小后处理复杂度。 1. 隐式视角转换:query-based 的 3D 参考点特征采样(单点); 2. query-based 检测 head。 1. OD:强;OCC:弱,不适合稠密场景表示。 2. 时序扩展:弱。 3. 多任务平台潜力有限。 4. 强依赖相机标定与 query 设计。 5. 算力需求:中等。
PETR 1. 隐式构建图像深度:为每个图像像素生成 3D 深度位置编码(ego 系); 2. 标准 attention 更简洁:图像特征 3D 位置编码与图像特征相加得到 K,图像特征为 V,标准 query + query_pose 为 Q。 1. 为 2D 特征增加隐式深度信息; 2. 不需要显式深度监督,避免显式深度误差传递; 3. 更适合 query-based 的检测范式。 1. 隐式视角转换; 2. query-based 检测 head。 1. OD:强;OCC:弱,比 DETR3D 空间建模更强,但不如 BEVFormer / BEVDepth。 2. 时序扩展:弱。 3. 多视角 3D 检测潜力较强。 4. 强依赖位置编码设计与相机标定。 5. 算力需求:中等。
BEVFormer 1. 显式构建 BEV 网格,引入 BEV query,通过 spatial cross-attention 将 2D 的 BEV 坐标映射为多个 3D 参考点,通过线性映射得到参考点的可学习偏移量,与参考点相加构成采样点坐标; 2. deformable attention:多个稀疏的全局特征采样,学习采样点偏移量及对应的权重系数; 3. 支持时序融合。 1. 减少传感器参数误差对模型性能影响; 2. 减小对地平假设的依赖; 3. 对不同传感器参数的鲁棒性更强。 1. 显式 BEV query 视角转换; 2. query-based 检测 head。 1. OD:强;OCC:强。 2. 时序扩展:强。 3. 适合向地图与规划扩展。 4. 依赖较强的工程化能力。 5. 算力需求:高。
SparseBEV 1. 构建稀疏的 BEV 关键点,提取关键目标特征信息; 2. 保留 BEV 中间表示,方便时序和多任务扩展。 1. 解决 dense BEV 表示计算量大、冗余区域太多的问题; 2. 是 query-based 与稠密 BEV 的折中。 1. 构建稀疏 BEV 表示,只在关键区域进行计算和更新; 2. 稀疏 BEV detection head,兼顾 BEV 结构和效率。 1. OD:强;OCC:中。 2. 时序扩展:弱。 3. 在精度与效率平衡方面很有潜力,适合工程优化。 4. 强依赖稀疏区域筛选策略。 5. 算力需求:低。
Sparse4D 1. 用稀疏实例表示,不显式构建 dense BEV; 2. 预测动态目标速度,进行多帧关联; 3. 维护每个目标的跨时间状态并持续更新; 4. 构建 13 个关键点(中心点、6 个面、6 个随机点)进行特征采样。 1. 解决 dense BEV 计算重、时序建模成本高的问题。 1. 隐式视角转换:偏稀疏实例级视角聚合; 2. 稀疏实例 head,围绕目标级表示做检测和时序更新。 1. OD:强;OCC:弱。 2. 时序扩展:强。 3. 在动态目标、时序建模、高效实例级感知上潜力很大。 4. 依赖时序关联质量、训练策略设计。 5. 算力需求:中等。
SurroundOcc 1. 从检测走向 3D occupancy 场景理解,强调完整空间表示。 1. 解决只靠目标框难以表达复杂场景结构的问题,尝试恢复完整 3D 占用状态。 1. 显式 3D voxel / occupancy 空间映射; 2. occupancy head,预测体素占用和语义,而非仅输出目标框。 1. OD:中等;OCC:强。 2. 时序扩展:中。 3. 是世界模型、场景理解、高阶自动驾驶的重要方向。 4. 强依赖高质量标注。 5. 算力需求:高。

选型推荐:

如果你更关心 更推荐先看
单任务 3D 检测 DETR3DPETR
高精度 BEV 多任务 BEVFormerBEVDepth
实时部署或量产 FastBEVSparseBEV
时序动态目标 Sparse4DBEVFormer
完整 3D 场景理解或 OCC SurroundOcc
相关推荐
随意起个昵称36 分钟前
线性dp-计数类题目10(ZBRKA)
算法·动态规划
云烟成雨TD6 小时前
Spring AI Alibaba 1.x 系列【69】Token 用量统计
java·人工智能·spring
Navigator_Z6 小时前
LeetCode //C - 1089. Duplicate Zeros
c语言·算法·leetcode
十三画者6 小时前
【AI学习笔记】:DeepSeek 大模型本地部署与调用实战指南
人工智能
丁常彦-自媒体-常言道6 小时前
从首发4nm智驾芯片到兜底城市领航安全,比亚迪开启AI新征程
人工智能
小杨在厦门8 小时前
从AI验布到智能质检:纺织企业智能化升级的三个台阶
人工智能·服装·服装厂·服装机械·铺布机
达之云*驭影8 小时前
解锁流量密码:详解抖音AI智能推荐封面功能
人工智能
火山引擎开发者社区8 小时前
ArkClaw 投研助理 —— 零门槛做投研,从一句话开始产出你的第一份深度研报
人工智能
码农小白AI8 小时前
AI报告审核加速融入自动化实验室:IACheck破解智能设备时代报告管理新挑战
运维·人工智能·自动化