端到端自动驾驶 BEV stack

本质上已经不是传统意义的 perception → planning pipeline，而是把整个驾驶问题统一成：

从多传感器输入 → BEV世界状态 → 直接输出轨迹/动作序列

可以理解为：BEV是中间"世界表征层"，端到端模型在BEV上做决策。

一、整体结构（工业级 E2E BEV Stack）

text 复制代码

Camera / LiDAR / Radar
          ↓
   Feature Encoders
          ↓
   BEV Representation (World Model)
          ↓
   Temporal BEV Memory (4D BEV)
          ↓
   Decision Transformer / Policy Network
          ↓
   Trajectory Decoder
          ↓
   Vehicle Control (steering(转向)/throttle(油门 / 驱动)/brake(刹车))

二、核心思想

传统自动驾驶：

感知 → 检测 → 预测 → 规划 → 控制

端到端 BEV Stack：

感知 + 预测 + 规划 = BEV World Model + Policy Network

三、核心模块拆解

1. Multi-sensor → BEV Encoder（世界建模入口）

输入：

Camera images
LiDAR point cloud
Radar velocity points

输出：

Unified BEV feature tensor

BEVt∈RH×W×C BEV_t \in \mathbb{R}^{H \times W \times C} BEVt∈RH×W×C

其中：

BEVtBEV_tBEVt：时刻 t 的 BEV 特征图

R：实数空间

H×W×C：高、宽和通道数构成的张量维度。

关键：统一坐标系(自车中心 BEV 坐标系)

所有传感器必须映射到：

Ego-centric BEV coordinate

数学表达：

BEVt∈RH×W×C,(x,y)∈Fego BEV_t \in \mathbb{R}^{H \times W \times C}, \quad (x,y) \in \mathcal{F}_{\text{ego}} BEVt∈RH×W×C,(x,y)∈Fego

工业实现：

Camera → LSS / BEVFormer
LiDAR → Pillar / Voxel BEV
Radar → velocity BEV map

BEVBEVBEV 表示定义在自车中心坐标系 FegoF_{\text{ego}}Fego 中，原点位于自车中心，x 轴指向车辆前进方向，y 轴指向车辆左侧（或右侧，取决于具体定义）。

2. Temporal BEV（4D世界记忆）

端到端系统的关键升级。

核心问题：

单帧 BEV 不够：

遮挡
远距离信息缺失
动态物体不稳定

解决方案：

Ego-motion alignment(自车运动对齐)

pt aligned=Tt→t−1pt \mathbf{p}{t}^{\,\text{aligned}}= \mathbf{T}{t \rightarrow t-1} \mathbf{p}_{t} ptaligned=Tt→t−1pt

Temporal Fusion: BEV 特征对齐（常用于时序 BEV 感知)：

text 复制代码

BEV_t = Attention(BEV_t, BEV_{t-1}, BEV_{t-2}...)

BEVtaligned=W(BEVt, Tt→t−1) BEV_t^{\text{aligned}}= \mathcal{W} \left( BEV_t,\, \mathbf{T}_{t \rightarrow t-1} \right) BEVtaligned=W(BEVt,Tt→t−1)

其中：

W(⋅) 表示 Warp/Spatial Transformation 操作；
将当前帧 BEV 特征映射到历史帧坐标系。

常见结构：

✔ BEV LSTM（早期）

✔ BEV Transformer（主流）

✔ Memory Bank BEV（最新）

3. BEV World Model（核心抽象）

已经不再做 detection，而是：

学习"可驾驶世界状态"

输出不再是：

bounding box ❌

而是：

✔ Occupancy grid

text 复制代码

P(occupied | x,y,z)

✔ Motion field

text 复制代码

velocity field over BEV

✔ Semantic BEV

road
lane
obstacle
drivable area

本质：

把世界变成一个"神经地图（Neural Map）"

4. Planning as Policy Network（核心变化）

传统规划：

rule-based
optimization-based (MPC)

端到端：

直接学习 driving policy

输入：

BEVt\] \[ BEV_t \] \[BEVt

输出：

trajectory：

(x1,y1),(x2,y2)...(xT,yT)\] \[ (x_1, y_1), (x_2, y_2)...(x_T, y_T) \] \[(x1,y1),(x2,y2)...(xT,yT)

或控制量：

steering(转向)
throttle(油门(驱动))
brake (刹车)

模型类型：

✔ Transformer Policy（主流）

text 复制代码

BEV tokens → Transformer → trajectory tokens

✔ Diffusion Policy（新趋势🔥）

text 复制代码

noise → denoise → trajectory

5. Trajectory Decoder（轨迹生成）

方法1：Regression

T=MLP(BEV)\] \[ T = MLP(BEV) \] \[T=MLP(BEV)

方法2：Anchor-based

多条候选轨迹
选最优

方法3（最新）：Diffusion Trajectory

text 复制代码

x ~ N(0,1)
↓
denoise conditioned on BEV
↓
trajectory

优点：

✔ 多模态

✔ 更安全

✔ 更接近人类驾驶

四、端到端 BEV Stack 三大主流路线

1. Tesla路线

特点：

Camera-only
Occupancy network
Fully end-to-end

pipeline：

text 复制代码

Video → Video Transformer
     → BEV + Occupancy
     → Planner network
     → Control

核心思想：

不做 detection，只建世界模型

2. Waymo路线（混合端到端）

特点：

BEVFusion + learning-based planner
still modular-ish

pipeline：

text 复制代码

Multi-sensor → BEVFusion
            → BEV encoder
            → learned planner
            → MPC refinement

特点：

✔ 安全优先

✔ 可解释性强

3. NVIDIA / industry hybrid

特点：

BEV + Transformer planner
imitation learning + RL

pipeline：

text 复制代码

BEV → Transformer → trajectory
   → safety filter → control

五、训练方式（非常关键）

1. Imitation Learning（主流）

模仿人类驾驶：

L=∣∣π(BEV)−experttrajectory∣∣\] \[ L = \|\| \\pi(BEV) - expert_{\\text{trajectory}} \|\| \] \[L=∣∣π(BEV)−experttrajectory∣∣

2. Multi-task Learning

同时学习：

occupancy
prediction
planning

3. Reinforcement Learning（增强）

强化学习奖励函数用于鼓励车辆实现无碰撞行驶、车道保持以及舒适驾驶。

rt=λ1rtcollision-free+λ2rtlane-keeping+λ3rtcomfort r_t= \lambda_1 r_t^{\text{collision-free}} + \lambda_2 r_t^{\text{lane-keeping}} + \lambda_3 r_t^{\text{comfort}} rt=λ1rtcollision-free+λ2rtlane-keeping+λ3rtcomfort

奖励：

collision free
lane keeping
comfort

4. Self-supervised world model（趋势）

学习：

"未来世界如何演化"

六、系统级架构（车端部署）

text 复制代码

Sensors
  ↓
GPU perception (BEV encoder)
  ↓
BEV memory (temporal buffer)
  ↓
Policy Transformer (TensorRT)
  ↓
Trajectory generator
  ↓
Safety layer (rule + check)
  ↓
Control ECU

七、关键工程挑战

1. 延迟

必须 < 50ms

2. 稳定性

端到端最大问题：

输出不可控

3. Safety layer 必须存在

即使 E2E，也必须：

collision check
trajectory clipping
emergency braking

即使采用端到端自动驾驶框架，仍然必须保留显式安全机制，包括碰撞检测、轨迹裁剪和紧急制动。

4. 数据闭环

text 复制代码

fleet → logs → training → redeploy

闭环学习系统持续收集车队运行数据，通过模型再训练和重新部署不断提升自动驾驶性能。
这是目前 Tesla FSD、Waymo、Cruise 等自动驾驶系统常用的 Data Closed Loop / Data Flywheel 表达方式。

八、BEV Stack vs 传统自动驾驶

模块	传统	BEV E2E
perception	detection-based	world model
planning	rule/MPC	neural policy
representation	boxes	BEV occupancy
coupling	loose	tight
performance	stable	higher ceiling

九、未来趋势

1. Occupancy-first driving

取代 detection

2. Diffusion Planning

轨迹生成变成生成模型

3. Unified World Model

BEV = video game engine state

4. VLM + BEV融合

text 复制代码

Vision-Language Model + BEV world model

理解"语义驾驶"

总结

端到端 BEV stack 的本质是：

用 BEV 作为"神经世界状态"，用 Transformer / Diffusion 学习驾驶策略，而不是显式拆分感知与规划。