Raw2Drive：基于对齐世界模型的端到端自动驾驶强化学习方案

在端到端自动驾驶（E2E-AD）领域，模仿学习（IL）长期占据主流地位，但始终受困于因果混淆、分布偏移等核心问题，难以应对复杂动态的真实驾驶场景。强化学习（RL）虽能通过奖励驱动的环境交互优化策略，展现出超越模仿学习的潜力，却因训练难度高、数据效率低等问题，未能在端到端自动驾驶中得到有效应用。上海交通大学、复旦大学等团队联合提出的 Raw2Drive 方案，创新性地设计了基于双流模型的强化学习（MBRL）架构，首次实现了基于原始传感器输入的端到端强化学习自动驾驶，并在 CARLA v2 和 Bench2Drive 等权威基准测试中取得 SOTA 性能。

原文链接：https://arxiv.org/pdf/2505.16394

代码链接：暂无

沐小含持续分享前沿算法论文，欢迎关注...

一、研究背景与核心问题

1.1 端到端自动驾驶的主流范式局限

端到端自动驾驶旨在通过统一模型直接将原始传感器输入（摄像头、LiDAR 等）映射为驾驶决策，无需模块化拆分感知、定位、规划等环节，简化了系统设计。目前主流方案存在两大技术路径，均存在显著缺陷：

（1）模仿学习（IL）的固有瓶颈

模仿学习通过让模型模仿人类专家驾驶演示进行训练，但其核心局限在于：

因果混淆：模型可能将动作与错误的因果关系关联（如误将旁车正常行驶归因为自身加速的结果）；
分布偏移：对未见过的场景（如极端天气、突发交通事件）泛化能力差；
数据偏见：专家演示中罕见的危险场景（如紧急制动、避让行人）样本不足，导致模型在 corner case 中易失效。尽管 IL 在 CARLA v1 等简单基准中性能饱和，但在包含 39 个真实世界 corner case 的 CARLA v2 中，现有 IL 方法难以取得满意成绩。

（2）强化学习的应用挑战

强化学习通过与环境交互获得奖励信号优化策略，能自主适应复杂场景，但在 E2E-AD 中面临三大难题：

模型无关的强化学习（Model-free RL）：训练效率极低、收敛困难。例如早期工作 MaRLn 需要 5000 万步训练（约 57 天），性能仍远落后于 IL 方法；
基于模型的强化学习（MBRL）：虽通过世界模型（World Model）提升采样效率，但现有方案（如 Think2Drive）依赖特权信息（Privileged Information，如环境真实状态、HD-Map 真值）作为输入，无法直接应用于仅能获取原始传感器数据的真实场景；
原始传感器数据的复杂性：摄像头、LiDAR 等原始数据具有高维、冗余、含噪声等特点，直接训练世界模型难度极大。

1.2 研究目标与核心贡献

Raw2Drive 的核心目标是突破 MBRL 在原始传感器输入 E2E-AD 中的应用瓶颈，构建高效、鲁棒的端到端强化学习自动驾驶框架。其主要贡献包括：

首个适用于 E2E-AD 的 MBRL 框架：首次实现从原始图像输入到驾驶规划的全流程 MBRL 方案，摆脱对特权信息的依赖；
SOTA 性能表现：在 CARLA v2 和 Bench2Drive 基准中大幅超越现有 IL 方法，验证了 RL 在复杂驾驶场景中的优势；
高效训练特性：仅需 64 个 H800 GPU 天即可完成训练，复用 Think2Drive 的第一阶段训练后可进一步降至 40 GPU 天，远低于工业界 IL 方案的训练成本；
双流架构与引导机制：提出双流世界模型设计和引导机制，有效解决原始传感器数据训练难度大、累计误差等问题，为工业界应用提供新参考。

二、核心技术架构

Raw2Drive 的核心设计是双流 MBRL 框架 与引导机制（Guidance Mechanism），通过特权信息辅助原始传感器模型训练，最终实现仅依赖原始传感器输入的端到端驾驶。整体架构分为训练阶段和推理阶段，具体如下：

2.1 整体框架概览

如上图所示，Raw2Drive 的训练过程分为两个阶段，推理阶段仅依赖原始传感器输入，完全符合真实自动驾驶场景需求：

训练阶段（图 2a）：首先利用特权信息训练特权世界模型和对应的策略；随后通过引导机制，由特权流引导原始传感器流的世界模型和策略训练；
推理阶段（图 2b）：仅输入多视角图像等原始传感器数据，通过训练好的原始传感器世界模型和策略输出驾驶决策；
引导机制（图 2c）：包含滚动引导（Rollout Guidance）和头部引导（Head Guidance），分别保证双流模型的未来状态预测一致性和策略训练的监督信号稳定性。

2.2 双流世界模型设计

Raw2Drive 包含两个并行的世界模型（特权世界模型和原始传感器世界模型），以及对应的两个策略模型（特权策略和原始传感器策略），其核心组件定义严格遵循论文表 2 规范：

注：两个世界模型均基于 Recurrent State-Space Model（RSSM）构建，特权世界模型架构完全沿用 DreamerV3，原始传感器世界模型仅在编码器和头部组件上进行定制化修改，确保与特权流的结构兼容性。

（1）特权流（Privileged Stream）

特权流的核心作用是为原始传感器流提供高质量的监督信号和先验知识，其训练过程严格遵循论文图 3 流程：

特权输入细节：与Roach[37]和Think2Drive[4]类似，我们采用时间序列化的BEV语义掩码作为输入，具体细节置如下：
特权世界模型训练：
- 编码器：5 层卷积网络，将 BEV 语义掩码映射为低维特征向量；
- RSSM：通过确定性状态建模 ego 车辆的连续运动状态（如位置、速度、姿态），随机状态建模其他交通参与者的不确定行为（如突发刹车、横穿马路）；
- 头部组件：
  - 奖励头：输出标量奖励，反映当前动作的安全性和有效性；
  - 解码器头：重建输入的 BEV 语义掩码，用于优化特征表征；
  - 继续标志头：输出二进制值（0/1），指示当前 episode 是否因碰撞、违规等终止；
- 损失函数：包含预测损失、动态损失和表征损失，公式如下：
  
  其中表示停止梯度操作，避免训练过程中梯度冲突；
特权策略训练：采用 Actor-Critic 架构，通过在特权世界模型中进行多步滚动（Rollout）生成轨迹数据，基于时序差分（TD）学习优化策略：
- Critic 网络：通过最大似然损失学习未来回报分布，公式为
- Actor 网络：结合熵正则化提升探索性，损失公式为
  
  其中为回报分布的 EMA 标准化项。

（2）原始传感器流（Raw Sensor Stream）

原始传感器输入（Raw Sensor Input）：

原始传感器输入包含多视角图像和 IMU 数据。我们采用 BEVFormer 作为原始传感器流的编码器，其输出网格状的 BEV 特征，以便接收来自特权流的引导。输入的详细信息见附录 C.1，如下：

原始传感器世界模型（Raw Sensor World Model）：

如图 4 所示，原始传感器世界模型与特权世界模型架构相似，仅在编码器和头部组件上存在差异 ------ 不同编码器用于处理不同类型输入。头部组件方面，仅保留解码器头，该头部基于 BEV 语义掩码提供监督信号，而非直接重建多视角视频。

此外，研究发现学习奖励或继续标志（二者均为单一标量）会对原始传感器流产生不利影响：相邻的相似帧可能对应截然不同的奖励和继续标志标签，这种矛盾会造成模型混淆，进而阻碍收敛。

原始传感器策略（Raw Sensor Policy）：

如图 5 所示，原始传感器策略通过强化学习（RL）在双流长模型中训练。滚动过程中，引导机制会确保两个世界模型在未来预测上的一致性。文中采用特权世界模型的头部组件获取奖励和继续标志，为原始传感器策略提供更准确、稳定的监督信号。

2.3 引导机制（Guidance Mechanism）

引导机制是 Raw2Drive 的核心创新，论文中详细阐述了其设计原理，用于解决双流模型训练中的对齐问题和累计误差，分为滚动引导和头部引导两部分，二者协同确保训练稳定性：

（1）滚动引导（Rollout Guidance）

滚动引导的核心目标是保证双流世界模型在多步滚动预测过程中的状态一致性，避免原始传感器数据的噪声和冗余导致预测偏差累积。其设计严格遵循论文图 6 的三组件对齐逻辑：

① 三组件对齐约束

时空对齐（Spatial-Temporal Alignment）：
- 问题：原始传感器编码器输出因图像噪声和冗余易出现空间错位或时序抖动；
- 解决方案：通过 MSE 损失约束与特权流编码器状态的逐网格对齐，确保每一时间步的 BEV 特征在空间位置和时序演化上保持一致；
- 损失项：，其中 =10，grid num为 BEV 视角下的网格数量。
抽象状态对齐（Abstract-State Alignment）：
- 确定性状态对齐：与通过 MSE 损失约束（，=5），保证 ego 车辆自身状态（位置、速度）的预测一致性；
- 随机状态对齐：与通过 KL 散度约束（，=10），确保对其他交通参与者行为预测的分布相似性。

② 整体损失函数

该损失直接添加到原始传感器世界模型的总损失中（），确保训练过程中双流状态的强制对齐。

③ 随机消除策略

问题：标准 RSSM 在滚动过程中会对随机状态和分别采样，导致双流模型的采样差异随时间累积，最终破坏状态一致性；
解决方案：仅从原始传感器流的随机状态分布中采样一次，将其直接输入特权世界模型的 RSSM 中计算，同时用于原始传感器流计算，彻底消除采样随机性带来的累计误差（如图 6c 所示）。

④ 有效性验证

论文附录 F 的实验表明（如图 7 所示），缺少滚动引导时，原始传感器世界模型的损失始终无法收敛，而加入引导后损失快速下降并稳定在低水平，验证了该机制的核心作用。

（2）头部引导（Head Guidance）

如上节所述，原始传感器世界模型的训练仅涉及解码器头。文中未训练奖励头和继续标志头，原因是直接利用原始传感器输入训练这两个头部会引发收敛问题 ------ 视频中相邻帧的视觉特征高度相似，但奖励值和继续标志可能出现突变（如图 9 所示），导致网络难以学习稳定模式。

在基于模型的强化学习（MBRL）中，奖励和继续标志对原始传感器策略的训练至关重要。因此，文中在训练原始传感器策略时，虽然未训练奖励头和继续标志头，但采用了特权世界模型输出的准确奖励和继续标志作为监督信号。如图 2（c）下半部分和图 5 所示，在每个时间步，原始传感器世界模型执行由原始传感器策略生成的动作，使系统过渡到下一潜在状态；同时，特权世界模型执行相同动作进行滚动预测。由于滚动引导（Rollout Guidance）已确保两个世界模型的一致性，因此可直接使用特权世界模型输出的奖励rt和继续标志。最终，生成的序列将作为优化原始传感器策略的训练数据。值得注意的是，文中还采用了随机性消除技术，以保证奖励和继续标志的准确性。此外还利用训练好的特权策略收集数据存入回放缓冲区，并将其动作分布蒸馏到原始传感器策略中。

消融验证：论文表 9 验证了头部引导的有效性：

2.4 训练流程与动作空间

（1）两阶段训练流程（严格遵循论文算法 1）

Raw2Drive 的训练分为两个阶段，交替更新世界模型和策略，确保训练稳定性：

阶段一：特权流训练（Phase I）
- 步骤 1：利用当前特权策略与 CARLA 模拟器交互，收集特权观测轨迹，存入特权回放缓冲区；
- 步骤 2：从中采样轨迹片段，训练特权世界模型 WM，最小化损失函数；
- 步骤 3：在中进行多步滚动，生成预测轨迹；
- 步骤 4：基于预测轨迹训练特权策略，优化 Actor-Critic 网络；
- 重复步骤 1-4，直至和收敛。
阶段二：原始传感器流训练（Phase II）
- 步骤 1：利用当前原始传感器策略与模拟器交互，收集原始传感器轨迹，存入原始回放缓冲区；
- 步骤 2：从中采样轨迹片段，训练原始传感器世界模型，损失为基础损失加滚动引导损失；
- 步骤 3：在中进行多步滚动，通过头部引导获取特权流的和，生成预测轨迹；
- 步骤 4：基于预测轨迹微调原始传感器策略，继承特权策略的先验知识；
- 重复步骤 1-4，直至和收敛。

（2）离散动作空间设计（严格遵循论文表 12）

为平衡动作表达能力和训练复杂度，Raw2Drive 将连续动作空间（油门、刹车、转向、倒车）分解为 39 个离散动作，覆盖所有合法驾驶场景：

油门：0、0.3、0.5、0.7、1.0 五个档位；
刹车：仅 0 档位（通过油门为 0 实现减速，简化动作空间）；
转向：-1.0、-0.7、-0.6、-0.5、-0.3、-0.2、-0.1、0、0.1、0.2、0.3、0.5、0.6、1.0 十四个档位；
倒车：True/False 两个状态；
动作示例：(油门 = 0.7, 刹车 = 0, 转向 =-0.5, 倒车 = False) 表示中等加速 + 大幅左转向，(油门 = 0.5, 刹车 = 0, 转向 = 0.3, 倒车 = True) 表示倒车 + 小幅右转向。

2.5 模型配置细节

框架：PyTorch；
优化器：AdamW（权重衰减 = 0.00）；
学习率：世界模型（和）为 1e-5，策略（和）为 3e-5；
损失权重：=10、=5、=10；
奖励设计：完全沿用 Think2Drive 的奖励函数和奖励塑形方法，确保奖励信号的合理性；
训练数据量：1000 条不同天气条件下的 CARLA 路线，覆盖多样驾驶场景。

三、实验验证与结果分析

Raw2Drive 在 CARLA v2 和 Bench2Drive 两大权威基准上进行了全面验证，对比了现有 IL 和 RL 方法的性能，同时通过消融实验验证了核心组件的有效性。

3.1 实验设置

模拟器：CARLA 0.9.15.1，支持闭环驾驶评估；
基准测试：
- CARLA v2：包含验证集和测试集两条长路线（7-10 公里），含多个复杂 corner case；
- Bench2Drive：更全面的基准，包含 220 条短路线（每条含一个 corner case），用于评估多维度驾驶能力；
训练数据：1000 条不同天气条件下的路线用于 RL 训练；
评估指标：
- RC（Route Completion）：路线完成率；
- IS（Infraction Score）：违规次数（与行人、车辆碰撞、闯红灯等）；
- DS（Driving Score）：驾驶得分（RC×IS）；
- SR（Success Rate）：成功完成路线比例（无违规且在规定时间内）。