从 2D 感知到 BEV 世界模型

一、问题的本质:自动驾驶究竟要"理解"什么
智能驾驶中的感知算法,并不是单纯回答"画面里有什么",而是要回答三个更困难的问题:
- 世界在三维空间中是什么样的
- 不同传感器看到的是否是同一个世界
- 这个世界在时间维度上如何连续变化
早期感知算法的发展,很长一段时间都停留在"看清楚图像内容",而不是"理解真实世界结构"。 BEV(Bird's Eye View)路线的出现,本质上是一场从图像认知到世界建模的范式迁移。
二、2D Image-space 感知:从"能识别"开始,但止步于图像
1.典型范式
最早一代智驾感知算法几乎全部工作在 Image-space:
- 输入:单目或多目 RGB 图像
- 输出:2D bounding box、2D segmentation mask
- 核心任务:检测车辆、行人、交通标志
这一阶段的算法高度继承了通用计算机视觉的发展成果,如 Faster R-CNN、YOLO、Mask R-CNN 等。

2.这一代真正解决了什么问题
2D 感知第一次让自动驾驶系统具备了"看懂画面"的能力:
- 能稳定识别物体类别
- 能在复杂背景中找到关键目标
- 能在消费级算力上实时运行
这是必要的一步,没有这一代,后续所有感知算法都无从谈起。
3.根本性缺陷
Image-space 感知存在无法通过模型规模解决的结构性问题:
- 没有真实几何
- 多相机之间缺乏统一坐标系
- 所有空间关系只是投影结果
Image-space 感知并不真正理解世界,而是在理解像素。
三、LiDAR-first 时代:几何优先,但语义不足
1.点云带来的改变
LiDAR 的引入让感知系统第一次拥有真实三维信息:
- 点云天然位于世界坐标系
- 距离、尺寸、位置无需推测
- 3D Box 成为可能
VoxelNet、PointPillars、SparseConv 等方法逐渐成为主流。 
2.解决的关键问题
- 准确的空间几何
- 稳定的目标定位
- 易于与规划模块对接
在空间可信度上,LiDAR-first 路线显著优于纯视觉。
3.局限性
- 成本与功耗高
- 点云语义信息稀疏
- 视觉信息利用不足
单一传感器难以同时满足几何与语义需求。
四、BEV:统一世界坐标系的关键一步

BEV(Bird's Eye View)不是一种模型,而是一种世界表示方式:
- 所有感知结果统一到俯视视角
- 多相机天然对齐
- 空间关系直观,利于规划与预测
BEV 的出现,标志着感知开始围绕"决策友好性"设计。
1.第一代 BEV 的实现方式
早期 BEV 依赖显式几何:
- 深度估计
- 相机标定
- 投影矩阵
通过 image → depth → world → BEV 的方式完成映射。
2.暴露的问题
- 深度误差被放大
- 对噪声极其敏感
- 单帧 BEV 抖动明显
问题不在 BEV,而在从 image 到 BEV 的方式。
五、BEVFormer:让模型学习投影关系
BEVFormer 的核心思想是:
不再显式计算深度,而是让模型学习 BEV 与图像之间的对应关系。
1.核心机制
- BEV Query:BEV 空间中的查询点
- Spatial Cross-Attention:BEV 与多相机特征交互
- Temporal Self-Attention:引入历史 BEV
2.带来的突破
- 摆脱显式深度建模
- 自动学习复杂投影关系
- 时序建模提升稳定性
BEVFormer 让 camera-only BEV 感知在精度上具备竞争力。
3.新问题
- Transformer 计算复杂
- 显存与算力消耗大
- 工程部署成本高
BEVFormer 是算法正确性的高峰,但也引入了工程压力。
六、BEVFusion:多模态 BEV 的系统化尝试
1.出发点
Camera 语义强但几何不稳,LiDAR 几何稳但语义弱。
BEVFusion 试图在 BEV 空间融合两者优势。
2.核心思想
- Camera → BEV
- LiDAR → BEV
- 在 BEV 空间完成融合
3.优势
- 几何稳定性提升
- 多模态互补自然
- 极端场景鲁棒性更强
4.代价
- 模型结构复杂
- 多分支系统维护成本高
- 推理链路变长
BEVFusion 提升了系统完整性,但工程复杂度显著上升。
七、Sparse4D:向现实系统妥协的 BEV
1.核心判断
Dense BEV 中,大多数网格并无有效信息,计算存在浪费。
2.核心变化
- Dense BEV → Sparse 表示
- 空间建模 → Object-centric 建模
- 强调时序一致性
3.解决的问题
- 显著降低计算量
- 更易满足实时性
- 更接近可部署系统需求
4.取舍
- 全局建模能力下降
- 更依赖 tracking 与初始化
- 系统设计复杂度提升
Sparse4D 是工程理性下的选择。
八、数据与传感器:算法演进的真正推手
1.数据集演进
- 单帧 → 长时序
- 单传感器 → 多模态
- 公共数据 → 私有闭环
数据形态直接塑造算法结构。
2.传感器现实约束
- Camera 数量增加
- LiDAR 成本博弈
- Radar 作为补充角色
这些现实因素持续影响 BEV 路线的取舍。
九、结语:BEV 是基础设施,而不是终点
BEV 的意义不在于某个具体模型,而在于:
自动驾驶系统第一次拥有了统一的世界表示。
未来模型名称可能变化,但在世界坐标系中建模、在时间维度中理解世界,将成为不可逆的方向。