BEV:典型BEV算法总结

核心差异:

1. 视角转换

1)显示视角转换:FastBEV(IPM),BEVDepth(LSS);

2)隐式视角转换:DETR3D(query-based+单参考点采样),PETR(query-based+3D位置编码,标准Transformer),BEVFormer(显示稠密BEV query映射),SparseBEV(显示稀疏BEV query映射),Sparse4D(实例级query-based+多个参考点采样);

2. head设计

query-based(DETR3D,PETR,BEVFormer,Sparse4D),BEV-feature(FastBEV,BEVDepth,SparseBEV),voxel(SurroundOcc);

对比总结

算法代表 核心特点 解决的问题 视角转换,head设计 多任务(OD / OCC),时序扩展,潜力,依赖项,算力
FastBEV 1. 显式 IPM 几何投影,高效率,易工程落地; 1. 解决 BEV 方法精度高但推理慢、部署重的问题。 1. 显式投影,将图像特征通过几何关系映射到 BEV 网格; 2. 基于 BEV feature 的 dense head。 1. OD:强;OCC:弱到中等。 2. 时序扩展:弱。 3. 在实时部署、量产导向上潜力大。 4. 依赖标定质量和 BEV 网格设计。 5. 算力需求:低。
BEVDepth 1. 显式引入深度估计,增加深度信息; 1. 解决图像到 BEV 转换中深度不准导致空间对齐差的问题。 1. 显式深度估计下的 3D 视角转换; 2. 基于 BEV feature 的 dense head。 1. OD:强;OCC:中等。 2. 时序扩展:中。 3. 平衡性能与算力。 4. 依赖相机标定与深度估计质量。 5. 算力需求:中等。
DETR3D 1. query-based 的多视角 3D 检测; 2. 不显式构建 dense BEV; 3. NMS free,更优雅。 1. 多相机 3D 检测自主融合; 2. 减少 BEV 映射流程; 3. 较小后处理复杂度。 1. 隐式视角转换:query-based 的 3D 参考点特征采样(单点); 2. query-based 检测 head。 1. OD:强;OCC:弱,不适合稠密场景表示。 2. 时序扩展:弱。 3. 多任务平台潜力有限。 4. 强依赖相机标定与 query 设计。 5. 算力需求:中等。
PETR 1. 隐式构建图像深度:为每个图像像素生成 3D 深度位置编码(ego 系); 2. 标准 attention 更简洁:图像特征 3D 位置编码与图像特征相加得到 K,图像特征为 V,标准 query + query_pose 为 Q。 1. 为 2D 特征增加隐式深度信息; 2. 不需要显式深度监督,避免显式深度误差传递; 3. 更适合 query-based 的检测范式。 1. 隐式视角转换; 2. query-based 检测 head。 1. OD:强;OCC:弱,比 DETR3D 空间建模更强,但不如 BEVFormer / BEVDepth。 2. 时序扩展:弱。 3. 多视角 3D 检测潜力较强。 4. 强依赖位置编码设计与相机标定。 5. 算力需求:中等。
BEVFormer 1. 显式构建 BEV 网格,引入 BEV query,通过 spatial cross-attention 将 2D 的 BEV 坐标映射为多个 3D 参考点,通过线性映射得到参考点的可学习偏移量,与参考点相加构成采样点坐标; 2. deformable attention:多个稀疏的全局特征采样,学习采样点偏移量及对应的权重系数; 3. 支持时序融合。 1. 减少传感器参数误差对模型性能影响; 2. 减小对地平假设的依赖; 3. 对不同传感器参数的鲁棒性更强。 1. 显式 BEV query 视角转换; 2. query-based 检测 head。 1. OD:强;OCC:强。 2. 时序扩展:强。 3. 适合向地图与规划扩展。 4. 依赖较强的工程化能力。 5. 算力需求:高。
SparseBEV 1. 构建稀疏的 BEV 关键点,提取关键目标特征信息; 2. 保留 BEV 中间表示,方便时序和多任务扩展。 1. 解决 dense BEV 表示计算量大、冗余区域太多的问题; 2. 是 query-based 与稠密 BEV 的折中。 1. 构建稀疏 BEV 表示,只在关键区域进行计算和更新; 2. 稀疏 BEV detection head,兼顾 BEV 结构和效率。 1. OD:强;OCC:中。 2. 时序扩展:弱。 3. 在精度与效率平衡方面很有潜力,适合工程优化。 4. 强依赖稀疏区域筛选策略。 5. 算力需求:低。
Sparse4D 1. 用稀疏实例表示,不显式构建 dense BEV; 2. 预测动态目标速度,进行多帧关联; 3. 维护每个目标的跨时间状态并持续更新; 4. 构建 13 个关键点(中心点、6 个面、6 个随机点)进行特征采样。 1. 解决 dense BEV 计算重、时序建模成本高的问题。 1. 隐式视角转换:偏稀疏实例级视角聚合; 2. 稀疏实例 head,围绕目标级表示做检测和时序更新。 1. OD:强;OCC:弱。 2. 时序扩展:强。 3. 在动态目标、时序建模、高效实例级感知上潜力很大。 4. 依赖时序关联质量、训练策略设计。 5. 算力需求:中等。
SurroundOcc 1. 从检测走向 3D occupancy 场景理解,强调完整空间表示。 1. 解决只靠目标框难以表达复杂场景结构的问题,尝试恢复完整 3D 占用状态。 1. 显式 3D voxel / occupancy 空间映射; 2. occupancy head,预测体素占用和语义,而非仅输出目标框。 1. OD:中等;OCC:强。 2. 时序扩展:中。 3. 是世界模型、场景理解、高阶自动驾驶的重要方向。 4. 强依赖高质量标注。 5. 算力需求:高。

选型推荐:

如果你更关心 更推荐先看
单任务 3D 检测 DETR3DPETR
高精度 BEV 多任务 BEVFormerBEVDepth
实时部署或量产 FastBEVSparseBEV
时序动态目标 Sparse4DBEVFormer
完整 3D 场景理解或 OCC SurroundOcc
相关推荐
腾讯云开发者3 分钟前
腾讯云TVP走进香港数码港,解码AI出海新范式
人工智能
用户479492835691515 分钟前
又当又立: Anthropic 这篇安全白皮书,为什么让人恶心
人工智能
Darling噜啦啦20 分钟前
AI Loop 自迭代循环实战:让 AI 自动写文案直到完美——从 Prompt 工程到 Loop 工程
人工智能
vanuan21 分钟前
MCP协议实战(Python版):让AI直接查你的数据库
人工智能
Vuhao25 分钟前
为什么同样的问题,别人的AI回答质量高40%?
人工智能
Vuhao26 分钟前
如何创造自己的工作流
人工智能
魏祖潇29 分钟前
RAG 的关键从来不是向量——是你能不能把对的内容捞出来
人工智能
web_Leon29 分钟前
提示词工程已死?Loop Engineering 三步法,让你的 AI 效率暴增 10 倍
人工智能·ai编程
半个落月38 分钟前
为什么大模型“记不住”你?从一次 API 调用讲透 LLM 的无状态、上下文与对话历史
人工智能
血小溅39 分钟前
Skill 脚本语言选型:Python、Node.js、Shell 到底怎么选?
人工智能·后端