BEV:典型BEV算法总结

核心差异:

1. 视角转换

1)显示视角转换:FastBEV(IPM),BEVDepth(LSS);

2)隐式视角转换:DETR3D(query-based+单参考点采样),PETR(query-based+3D位置编码,标准Transformer),BEVFormer(显示稠密BEV query映射),SparseBEV(显示稀疏BEV query映射),Sparse4D(实例级query-based+多个参考点采样);

2. head设计

query-based(DETR3D,PETR,BEVFormer,Sparse4D),BEV-feature(FastBEV,BEVDepth,SparseBEV),voxel(SurroundOcc);

对比总结

算法代表 核心特点 解决的问题 视角转换,head设计 多任务(OD / OCC),时序扩展,潜力,依赖项,算力
FastBEV 1. 显式 IPM 几何投影,高效率,易工程落地; 1. 解决 BEV 方法精度高但推理慢、部署重的问题。 1. 显式投影,将图像特征通过几何关系映射到 BEV 网格; 2. 基于 BEV feature 的 dense head。 1. OD:强;OCC:弱到中等。 2. 时序扩展:弱。 3. 在实时部署、量产导向上潜力大。 4. 依赖标定质量和 BEV 网格设计。 5. 算力需求:低。
BEVDepth 1. 显式引入深度估计,增加深度信息; 1. 解决图像到 BEV 转换中深度不准导致空间对齐差的问题。 1. 显式深度估计下的 3D 视角转换; 2. 基于 BEV feature 的 dense head。 1. OD:强;OCC:中等。 2. 时序扩展:中。 3. 平衡性能与算力。 4. 依赖相机标定与深度估计质量。 5. 算力需求:中等。
DETR3D 1. query-based 的多视角 3D 检测; 2. 不显式构建 dense BEV; 3. NMS free,更优雅。 1. 多相机 3D 检测自主融合; 2. 减少 BEV 映射流程; 3. 较小后处理复杂度。 1. 隐式视角转换:query-based 的 3D 参考点特征采样(单点); 2. query-based 检测 head。 1. OD:强;OCC:弱,不适合稠密场景表示。 2. 时序扩展:弱。 3. 多任务平台潜力有限。 4. 强依赖相机标定与 query 设计。 5. 算力需求:中等。
PETR 1. 隐式构建图像深度:为每个图像像素生成 3D 深度位置编码(ego 系); 2. 标准 attention 更简洁:图像特征 3D 位置编码与图像特征相加得到 K,图像特征为 V,标准 query + query_pose 为 Q。 1. 为 2D 特征增加隐式深度信息; 2. 不需要显式深度监督,避免显式深度误差传递; 3. 更适合 query-based 的检测范式。 1. 隐式视角转换; 2. query-based 检测 head。 1. OD:强;OCC:弱,比 DETR3D 空间建模更强,但不如 BEVFormer / BEVDepth。 2. 时序扩展:弱。 3. 多视角 3D 检测潜力较强。 4. 强依赖位置编码设计与相机标定。 5. 算力需求:中等。
BEVFormer 1. 显式构建 BEV 网格,引入 BEV query,通过 spatial cross-attention 将 2D 的 BEV 坐标映射为多个 3D 参考点,通过线性映射得到参考点的可学习偏移量,与参考点相加构成采样点坐标; 2. deformable attention:多个稀疏的全局特征采样,学习采样点偏移量及对应的权重系数; 3. 支持时序融合。 1. 减少传感器参数误差对模型性能影响; 2. 减小对地平假设的依赖; 3. 对不同传感器参数的鲁棒性更强。 1. 显式 BEV query 视角转换; 2. query-based 检测 head。 1. OD:强;OCC:强。 2. 时序扩展:强。 3. 适合向地图与规划扩展。 4. 依赖较强的工程化能力。 5. 算力需求:高。
SparseBEV 1. 构建稀疏的 BEV 关键点,提取关键目标特征信息; 2. 保留 BEV 中间表示,方便时序和多任务扩展。 1. 解决 dense BEV 表示计算量大、冗余区域太多的问题; 2. 是 query-based 与稠密 BEV 的折中。 1. 构建稀疏 BEV 表示,只在关键区域进行计算和更新; 2. 稀疏 BEV detection head,兼顾 BEV 结构和效率。 1. OD:强;OCC:中。 2. 时序扩展:弱。 3. 在精度与效率平衡方面很有潜力,适合工程优化。 4. 强依赖稀疏区域筛选策略。 5. 算力需求:低。
Sparse4D 1. 用稀疏实例表示,不显式构建 dense BEV; 2. 预测动态目标速度,进行多帧关联; 3. 维护每个目标的跨时间状态并持续更新; 4. 构建 13 个关键点(中心点、6 个面、6 个随机点)进行特征采样。 1. 解决 dense BEV 计算重、时序建模成本高的问题。 1. 隐式视角转换:偏稀疏实例级视角聚合; 2. 稀疏实例 head,围绕目标级表示做检测和时序更新。 1. OD:强;OCC:弱。 2. 时序扩展:强。 3. 在动态目标、时序建模、高效实例级感知上潜力很大。 4. 依赖时序关联质量、训练策略设计。 5. 算力需求:中等。
SurroundOcc 1. 从检测走向 3D occupancy 场景理解,强调完整空间表示。 1. 解决只靠目标框难以表达复杂场景结构的问题,尝试恢复完整 3D 占用状态。 1. 显式 3D voxel / occupancy 空间映射; 2. occupancy head,预测体素占用和语义,而非仅输出目标框。 1. OD:中等;OCC:强。 2. 时序扩展:中。 3. 是世界模型、场景理解、高阶自动驾驶的重要方向。 4. 强依赖高质量标注。 5. 算力需求:高。

选型推荐:

如果你更关心 更推荐先看
单任务 3D 检测 DETR3DPETR
高精度 BEV 多任务 BEVFormerBEVDepth
实时部署或量产 FastBEVSparseBEV
时序动态目标 Sparse4DBEVFormer
完整 3D 场景理解或 OCC SurroundOcc
相关推荐
j_xxx404_2 小时前
大语言模型 (LLM) 零基础入门:核心原理、训练机制与能力全解
人工智能·ai·transformer
飞哥数智坊2 小时前
全新 SOLO 在日常办公中的实际体验
人工智能·solo
南宫萧幕2 小时前
自控PID+MATLAB仿真+混动P0/P1/P2/P3/P4构型
算法·机器学习·matlab·simulink·控制·pid
<-->2 小时前
Megatron(全称 Megatron-LM,由 NVIDIA 开发)和 DeepSpeed(由 Microsoft 开发)
人工智能·pytorch·python·深度学习·transformer
朝新_2 小时前
【Spring AI 】图像与语音模型实战
java·人工智能·spring
Yuanxl9032 小时前
神经网络-Sequential 应用与实战
人工智能·深度学习·神经网络
火山引擎开发者社区3 小时前
Seedance 2.0 1080P 生成能力正式上线
人工智能
冬奇Lab3 小时前
一天一个开源项目(第79篇):生化危机女主角亲自开源的 AI 记忆系统 MemPalace
人工智能·开源·资讯
冬奇Lab3 小时前
Android 开发要变天了:Google 专为 Agent 重建工具链,Token 减少 70%、速度提升 3 倍
android·人工智能·ai编程