端到端自动驾驶 BEV stack

本质上已经不是传统意义的 perception → planning pipeline,而是把整个驾驶问题统一成:

从多传感器输入 → BEV世界状态 → 直接输出轨迹/动作序列

可以理解为:BEV是中间"世界表征层",端到端模型在BEV上做决策。


一、整体结构(工业级 E2E BEV Stack)

text 复制代码
Camera / LiDAR / Radar
          ↓
   Feature Encoders
          ↓
   BEV Representation (World Model)
          ↓
   Temporal BEV Memory (4D BEV)
          ↓
   Decision Transformer / Policy Network
          ↓
   Trajectory Decoder
          ↓
   Vehicle Control (steering(转向)/throttle(油门 / 驱动)/brake(刹车))

二、核心思想

传统自动驾驶:

感知 → 检测 → 预测 → 规划 → 控制

端到端 BEV Stack:

感知 + 预测 + 规划 = BEV World Model + Policy Network


三、核心模块拆解


1. Multi-sensor → BEV Encoder(世界建模入口)

输入:

  • Camera images
  • LiDAR point cloud
  • Radar velocity points

输出:

Unified BEV feature tensor

BEVt∈RH×W×C BEV_t \in \mathbb{R}^{H \times W \times C} BEVt∈RH×W×C

其中:

BEVtBEV_tBEVt:时刻 t 的 BEV 特征图

R:实数空间

H×W×C:高、宽和通道数构成的张量维度。


关键:统一坐标系(自车中心 BEV 坐标系)

所有传感器必须映射到:

Ego-centric BEV coordinate


数学表达:

BEVt∈RH×W×C,(x,y)∈Fego BEV_t \in \mathbb{R}^{H \times W \times C}, \quad (x,y) \in \mathcal{F}_{\text{ego}} BEVt∈RH×W×C,(x,y)∈Fego


工业实现:

  • Camera → LSS / BEVFormer
  • LiDAR → Pillar / Voxel BEV
  • Radar → velocity BEV map

BEVBEVBEV 表示定义在自车中心坐标系 FegoF_{\text{ego}}Fego 中,原点位于自车中心,x 轴指向车辆前进方向,y 轴指向车辆左侧(或右侧,取决于具体定义)。


2. Temporal BEV(4D世界记忆)

端到端系统的关键升级。


核心问题:

单帧 BEV 不够:

  • 遮挡
  • 远距离信息缺失
  • 动态物体不稳定

解决方案:

Ego-motion alignment(自车运动对齐)

pt aligned=Tt→t−1pt \mathbf{p}{t}^{\,\text{aligned}}= \mathbf{T}{t \rightarrow t-1} \mathbf{p}_{t} ptaligned=Tt→t−1pt


Temporal Fusion: BEV 特征对齐(常用于时序 BEV 感知):

text 复制代码
BEV_t = Attention(BEV_t, BEV_{t-1}, BEV_{t-2}...)

BEVtaligned=W(BEVt, Tt→t−1) BEV_t^{\text{aligned}}= \mathcal{W} \left( BEV_t,\, \mathbf{T}_{t \rightarrow t-1} \right) BEVtaligned=W(BEVt,Tt→t−1)

其中:

  • W(⋅) 表示 Warp/Spatial Transformation 操作;
  • 将当前帧 BEV 特征映射到历史帧坐标系。

常见结构:

✔ BEV LSTM(早期)

✔ BEV Transformer(主流)

✔ Memory Bank BEV(最新)


3. BEV World Model(核心抽象)

已经不再做 detection,而是:

学习"可驾驶世界状态"


输出不再是:

  • bounding box ❌

而是:

✔ Occupancy grid

text 复制代码
P(occupied | x,y,z)

✔ Motion field

text 复制代码
velocity field over BEV

✔ Semantic BEV

  • road
  • lane
  • obstacle
  • drivable area

本质:

把世界变成一个"神经地图(Neural Map)"


4. Planning as Policy Network(核心变化)

传统规划:

  • rule-based
  • optimization-based (MPC)

端到端:

直接学习 driving policy


输入:

BEVt\] \[ BEV_t \] \[BEVt


输出:

trajectory:

(x1,y1),(x2,y2)...(xT,yT)\] \[ (x_1, y_1), (x_2, y_2)...(x_T, y_T) \] \[(x1,y1),(x2,y2)...(xT,yT)


或控制量:

  • steering(转向)
  • throttle(油门(驱动))
  • brake (刹车)

模型类型:

✔ Transformer Policy(主流)

text 复制代码
BEV tokens → Transformer → trajectory tokens

✔ Diffusion Policy(新趋势🔥)

text 复制代码
noise → denoise → trajectory

5. Trajectory Decoder(轨迹生成)


方法1:Regression

T=MLP(BEV)\] \[ T = MLP(BEV) \] \[T=MLP(BEV)


方法2:Anchor-based

  • 多条候选轨迹
  • 选最优

方法3(最新):Diffusion Trajectory

text 复制代码
x ~ N(0,1)
↓
denoise conditioned on BEV
↓
trajectory

优点:

✔ 多模态

✔ 更安全

✔ 更接近人类驾驶


四、端到端 BEV Stack 三大主流路线


1. Tesla路线

特点:

  • Camera-only
  • Occupancy network
  • Fully end-to-end

pipeline:

text 复制代码
Video → Video Transformer
     → BEV + Occupancy
     → Planner network
     → Control

核心思想:

不做 detection,只建世界模型


2. Waymo路线(混合端到端)

特点:

  • BEVFusion + learning-based planner
  • still modular-ish

pipeline:

text 复制代码
Multi-sensor → BEVFusion
            → BEV encoder
            → learned planner
            → MPC refinement

特点:

✔ 安全优先

✔ 可解释性强


3. NVIDIA / industry hybrid

特点:

  • BEV + Transformer planner
  • imitation learning + RL

pipeline:

text 复制代码
BEV → Transformer → trajectory
   → safety filter → control

五、训练方式(非常关键)


1. Imitation Learning(主流)

模仿人类驾驶:

L=∣∣π(BEV)−experttrajectory∣∣\] \[ L = \|\| \\pi(BEV) - expert_{\\text{trajectory}} \|\| \] \[L=∣∣π(BEV)−experttrajectory∣∣


2. Multi-task Learning

同时学习:

  • occupancy
  • prediction
  • planning

3. Reinforcement Learning(增强)

强化学习奖励函数用于鼓励车辆实现无碰撞行驶、车道保持以及舒适驾驶。

rt=λ1rtcollision-free+λ2rtlane-keeping+λ3rtcomfort r_t= \lambda_1 r_t^{\text{collision-free}} + \lambda_2 r_t^{\text{lane-keeping}} + \lambda_3 r_t^{\text{comfort}} rt=λ1rtcollision-free+λ2rtlane-keeping+λ3rtcomfort

奖励:

  • collision free
  • lane keeping
  • comfort

4. Self-supervised world model(趋势)

学习:

"未来世界如何演化"


六、系统级架构(车端部署)

text 复制代码
Sensors
  ↓
GPU perception (BEV encoder)
  ↓
BEV memory (temporal buffer)
  ↓
Policy Transformer (TensorRT)
  ↓
Trajectory generator
  ↓
Safety layer (rule + check)
  ↓
Control ECU

七、关键工程挑战


1. 延迟

必须 < 50ms


2. 稳定性

端到端最大问题:

输出不可控


3. Safety layer 必须存在

即使 E2E,也必须:

  • collision check
  • trajectory clipping
  • emergency braking

即使采用端到端自动驾驶框架,仍然必须保留显式安全机制,包括碰撞检测、轨迹裁剪和紧急制动。


4. 数据闭环

text 复制代码
fleet → logs → training → redeploy
  • 闭环学习系统持续收集车队运行数据,通过模型再训练和重新部署不断提升自动驾驶性能。
  • 这是目前 Tesla FSD、Waymo、Cruise 等自动驾驶系统常用的 Data Closed Loop / Data Flywheel 表达方式。

八、BEV Stack vs 传统自动驾驶

模块 传统 BEV E2E
perception detection-based world model
planning rule/MPC neural policy
representation boxes BEV occupancy
coupling loose tight
performance stable higher ceiling

九、未来趋势


1. Occupancy-first driving

取代 detection


2. Diffusion Planning

轨迹生成变成生成模型


3. Unified World Model

BEV = video game engine state


4. VLM + BEV融合

text 复制代码
Vision-Language Model + BEV world model

理解"语义驾驶"


总结

端到端 BEV stack 的本质是:

用 BEV 作为"神经世界状态",用 Transformer / Diffusion 学习驾驶策略,而不是显式拆分感知与规划。


相关推荐
wy3136228211 小时前
AI——移动端大模型部署新范式:基于sherpa-onnx的Android离线语音识别实战(语音转文字)
人工智能
果丁智能1 小时前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
下班走回家1 小时前
DeepSeek 开源模型的突破与思考:从技术到生态的全面进化
人工智能·开源
treesforest1 小时前
AI安全系统如何识别异常访问?IP风险识别正在成为关键能力
网络·人工智能·tcp/ip·安全·web安全
harykali1 小时前
Hello-ROCm:Gemma4微调 #Datawhale #AMDev
人工智能·llm
weiwin1231 小时前
MAF 入门(5):多 Agent 编排全解
人工智能·agent
用户5191495848451 小时前
Flowise预认证任意文件上传漏洞分析(CVE-2025-26319)
人工智能·aigc
shushangyun_1 小时前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化
闵孚龙1 小时前
《PyTorch 深度修炼》Dataset 和 DataLoader:数据如何喂给模型
人工智能·pytorch·python