本质上已经不是传统意义的 perception → planning pipeline,而是把整个驾驶问题统一成:
从多传感器输入 → BEV世界状态 → 直接输出轨迹/动作序列
可以理解为:BEV是中间"世界表征层",端到端模型在BEV上做决策。
一、整体结构(工业级 E2E BEV Stack)
text
Camera / LiDAR / Radar
↓
Feature Encoders
↓
BEV Representation (World Model)
↓
Temporal BEV Memory (4D BEV)
↓
Decision Transformer / Policy Network
↓
Trajectory Decoder
↓
Vehicle Control (steering(转向)/throttle(油门 / 驱动)/brake(刹车))
二、核心思想
传统自动驾驶:
感知 → 检测 → 预测 → 规划 → 控制
端到端 BEV Stack:
感知 + 预测 + 规划 = BEV World Model + Policy Network
三、核心模块拆解
1. Multi-sensor → BEV Encoder(世界建模入口)
输入:
- Camera images
- LiDAR point cloud
- Radar velocity points
输出:
Unified BEV feature tensor
BEVt∈RH×W×C BEV_t \in \mathbb{R}^{H \times W \times C} BEVt∈RH×W×C
其中:
BEVtBEV_tBEVt:时刻 t 的 BEV 特征图
R:实数空间
H×W×C:高、宽和通道数构成的张量维度。
关键:统一坐标系(自车中心 BEV 坐标系)
所有传感器必须映射到:
Ego-centric BEV coordinate
数学表达:
BEVt∈RH×W×C,(x,y)∈Fego BEV_t \in \mathbb{R}^{H \times W \times C}, \quad (x,y) \in \mathcal{F}_{\text{ego}} BEVt∈RH×W×C,(x,y)∈Fego
工业实现:
- Camera → LSS / BEVFormer
- LiDAR → Pillar / Voxel BEV
- Radar → velocity BEV map
BEVBEVBEV 表示定义在自车中心坐标系 FegoF_{\text{ego}}Fego 中,原点位于自车中心,x 轴指向车辆前进方向,y 轴指向车辆左侧(或右侧,取决于具体定义)。
2. Temporal BEV(4D世界记忆)
端到端系统的关键升级。
核心问题:
单帧 BEV 不够:
- 遮挡
- 远距离信息缺失
- 动态物体不稳定
解决方案:
Ego-motion alignment(自车运动对齐)
pt aligned=Tt→t−1pt \mathbf{p}{t}^{\,\text{aligned}}= \mathbf{T}{t \rightarrow t-1} \mathbf{p}_{t} ptaligned=Tt→t−1pt
Temporal Fusion: BEV 特征对齐(常用于时序 BEV 感知):
text
BEV_t = Attention(BEV_t, BEV_{t-1}, BEV_{t-2}...)
BEVtaligned=W(BEVt, Tt→t−1) BEV_t^{\text{aligned}}= \mathcal{W} \left( BEV_t,\, \mathbf{T}_{t \rightarrow t-1} \right) BEVtaligned=W(BEVt,Tt→t−1)
其中:
- W(⋅) 表示 Warp/Spatial Transformation 操作;
- 将当前帧 BEV 特征映射到历史帧坐标系。
常见结构:
✔ BEV LSTM(早期)
✔ BEV Transformer(主流)
✔ Memory Bank BEV(最新)
3. BEV World Model(核心抽象)
已经不再做 detection,而是:
学习"可驾驶世界状态"
输出不再是:
- bounding box ❌
而是:
✔ Occupancy grid
text
P(occupied | x,y,z)
✔ Motion field
text
velocity field over BEV
✔ Semantic BEV
- road
- lane
- obstacle
- drivable area
本质:
把世界变成一个"神经地图(Neural Map)"
4. Planning as Policy Network(核心变化)
传统规划:
- rule-based
- optimization-based (MPC)
端到端:
直接学习 driving policy
输入:
BEVt\] \[ BEV_t \] \[BEVt
输出:
trajectory:
(x1,y1),(x2,y2)...(xT,yT)\] \[ (x_1, y_1), (x_2, y_2)...(x_T, y_T) \] \[(x1,y1),(x2,y2)...(xT,yT)
或控制量:
- steering(转向)
- throttle(油门(驱动))
- brake (刹车)
模型类型:
✔ Transformer Policy(主流)
text
BEV tokens → Transformer → trajectory tokens
✔ Diffusion Policy(新趋势🔥)
text
noise → denoise → trajectory
5. Trajectory Decoder(轨迹生成)
方法1:Regression
T=MLP(BEV)\] \[ T = MLP(BEV) \] \[T=MLP(BEV)
方法2:Anchor-based
- 多条候选轨迹
- 选最优
方法3(最新):Diffusion Trajectory
text
x ~ N(0,1)
↓
denoise conditioned on BEV
↓
trajectory
优点:
✔ 多模态
✔ 更安全
✔ 更接近人类驾驶
四、端到端 BEV Stack 三大主流路线
1. Tesla路线
特点:
- Camera-only
- Occupancy network
- Fully end-to-end
pipeline:
text
Video → Video Transformer
→ BEV + Occupancy
→ Planner network
→ Control
核心思想:
不做 detection,只建世界模型
2. Waymo路线(混合端到端)
特点:
- BEVFusion + learning-based planner
- still modular-ish
pipeline:
text
Multi-sensor → BEVFusion
→ BEV encoder
→ learned planner
→ MPC refinement
特点:
✔ 安全优先
✔ 可解释性强
3. NVIDIA / industry hybrid
特点:
- BEV + Transformer planner
- imitation learning + RL
pipeline:
text
BEV → Transformer → trajectory
→ safety filter → control
五、训练方式(非常关键)
1. Imitation Learning(主流)
模仿人类驾驶:
L=∣∣π(BEV)−experttrajectory∣∣\] \[ L = \|\| \\pi(BEV) - expert_{\\text{trajectory}} \|\| \] \[L=∣∣π(BEV)−experttrajectory∣∣
2. Multi-task Learning
同时学习:
- occupancy
- prediction
- planning
3. Reinforcement Learning(增强)
强化学习奖励函数用于鼓励车辆实现无碰撞行驶、车道保持以及舒适驾驶。
rt=λ1rtcollision-free+λ2rtlane-keeping+λ3rtcomfort r_t= \lambda_1 r_t^{\text{collision-free}} + \lambda_2 r_t^{\text{lane-keeping}} + \lambda_3 r_t^{\text{comfort}} rt=λ1rtcollision-free+λ2rtlane-keeping+λ3rtcomfort
奖励:
- collision free
- lane keeping
- comfort
4. Self-supervised world model(趋势)
学习:
"未来世界如何演化"
六、系统级架构(车端部署)
text
Sensors
↓
GPU perception (BEV encoder)
↓
BEV memory (temporal buffer)
↓
Policy Transformer (TensorRT)
↓
Trajectory generator
↓
Safety layer (rule + check)
↓
Control ECU
七、关键工程挑战
1. 延迟
必须 < 50ms
2. 稳定性
端到端最大问题:
输出不可控
3. Safety layer 必须存在
即使 E2E,也必须:
- collision check
- trajectory clipping
- emergency braking
即使采用端到端自动驾驶框架,仍然必须保留显式安全机制,包括碰撞检测、轨迹裁剪和紧急制动。
4. 数据闭环
text
fleet → logs → training → redeploy
- 闭环学习系统持续收集车队运行数据,通过模型再训练和重新部署不断提升自动驾驶性能。
- 这是目前 Tesla FSD、Waymo、Cruise 等自动驾驶系统常用的 Data Closed Loop / Data Flywheel 表达方式。
八、BEV Stack vs 传统自动驾驶
| 模块 | 传统 | BEV E2E |
|---|---|---|
| perception | detection-based | world model |
| planning | rule/MPC | neural policy |
| representation | boxes | BEV occupancy |
| coupling | loose | tight |
| performance | stable | higher ceiling |
九、未来趋势
1. Occupancy-first driving
取代 detection
2. Diffusion Planning
轨迹生成变成生成模型
3. Unified World Model
BEV = video game engine state
4. VLM + BEV融合
text
Vision-Language Model + BEV world model
理解"语义驾驶"
总结
端到端 BEV stack 的本质是:
用 BEV 作为"神经世界状态",用 Transformer / Diffusion 学习驾驶策略,而不是显式拆分感知与规划。