Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案

在端到端自动驾驶(E2E-AD)领域,模仿学习(IL)长期占据主流地位,但始终受困于因果混淆、分布偏移等核心问题,难以应对复杂动态的真实驾驶场景。强化学习(RL)虽能通过奖励驱动的环境交互优化策略,展现出超越模仿学习的潜力,却因训练难度高、数据效率低等问题,未能在端到端自动驾驶中得到有效应用。上海交通大学、复旦大学等团队联合提出的 Raw2Drive 方案,创新性地设计了基于双流模型的强化学习(MBRL)架构,首次实现了基于原始传感器输入的端到端强化学习自动驾驶,并在 CARLA v2 和 Bench2Drive 等权威基准测试中取得 SOTA 性能。

原文链接:https://arxiv.org/pdf/2505.16394

代码链接:暂无

沐小含持续分享前沿算法论文,欢迎关注...

一、研究背景与核心问题

1.1 端到端自动驾驶的主流范式局限

端到端自动驾驶旨在通过统一模型直接将原始传感器输入(摄像头、LiDAR 等)映射为驾驶决策,无需模块化拆分感知、定位、规划等环节,简化了系统设计。目前主流方案存在两大技术路径,均存在显著缺陷:

(1)模仿学习(IL)的固有瓶颈

模仿学习通过让模型模仿人类专家驾驶演示进行训练,但其核心局限在于:

  • 因果混淆:模型可能将动作与错误的因果关系关联(如误将旁车正常行驶归因为自身加速的结果);
  • 分布偏移:对未见过的场景(如极端天气、突发交通事件)泛化能力差;
  • 数据偏见:专家演示中罕见的危险场景(如紧急制动、避让行人)样本不足,导致模型在 corner case 中易失效。尽管 IL 在 CARLA v1 等简单基准中性能饱和,但在包含 39 个真实世界 corner case 的 CARLA v2 中,现有 IL 方法难以取得满意成绩。
(2)强化学习的应用挑战

强化学习通过与环境交互获得奖励信号优化策略,能自主适应复杂场景,但在 E2E-AD 中面临三大难题:

  • 模型无关的强化学习(Model-free RL):训练效率极低、收敛困难。例如早期工作 MaRLn 需要 5000 万步训练(约 57 天),性能仍远落后于 IL 方法;
  • 基于模型的强化学习(MBRL):虽通过世界模型(World Model)提升采样效率,但现有方案(如 Think2Drive)依赖特权信息(Privileged Information,如环境真实状态、HD-Map 真值)作为输入,无法直接应用于仅能获取原始传感器数据的真实场景;
  • 原始传感器数据的复杂性:摄像头、LiDAR 等原始数据具有高维、冗余、含噪声等特点,直接训练世界模型难度极大。

1.2 研究目标与核心贡献

Raw2Drive 的核心目标是突破 MBRL 在原始传感器输入 E2E-AD 中的应用瓶颈,构建高效、鲁棒的端到端强化学习自动驾驶框架。其主要贡献包括:

  1. 首个适用于 E2E-AD 的 MBRL 框架:首次实现从原始图像输入到驾驶规划的全流程 MBRL 方案,摆脱对特权信息的依赖;
  2. SOTA 性能表现:在 CARLA v2 和 Bench2Drive 基准中大幅超越现有 IL 方法,验证了 RL 在复杂驾驶场景中的优势;
  3. 高效训练特性:仅需 64 个 H800 GPU 天即可完成训练,复用 Think2Drive 的第一阶段训练后可进一步降至 40 GPU 天,远低于工业界 IL 方案的训练成本;
  4. 双流架构与引导机制:提出双流世界模型设计和引导机制,有效解决原始传感器数据训练难度大、累计误差等问题,为工业界应用提供新参考。

二、核心技术架构

Raw2Drive 的核心设计是双流 MBRL 框架引导机制(Guidance Mechanism),通过特权信息辅助原始传感器模型训练,最终实现仅依赖原始传感器输入的端到端驾驶。整体架构分为训练阶段和推理阶段,具体如下:

2.1 整体框架概览

如上图所示,Raw2Drive 的训练过程分为两个阶段,推理阶段仅依赖原始传感器输入,完全符合真实自动驾驶场景需求:

  • 训练阶段(图 2a):首先利用特权信息训练特权世界模型和对应的策略;随后通过引导机制,由特权流引导原始传感器流的世界模型和策略训练;
  • 推理阶段(图 2b):仅输入多视角图像等原始传感器数据,通过训练好的原始传感器世界模型和策略输出驾驶决策;
  • 引导机制(图 2c):包含滚动引导(Rollout Guidance)和头部引导(Head Guidance),分别保证双流模型的未来状态预测一致性和策略训练的监督信号稳定性。

2.2 双流世界模型设计

Raw2Drive 包含两个并行的世界模型(特权世界模型 和原始传感器世界模型 ),以及对应的两个策略模型(特权策略 和原始传感器策略 ),其核心组件定义严格遵循论文表 2 规范:

注:两个世界模型均基于 Recurrent State-Space Model(RSSM)构建,特权世界模型架构完全沿用 DreamerV3,原始传感器世界模型仅在编码器和头部组件上进行定制化修改,确保与特权流的结构兼容性。

(1)特权流(Privileged Stream)

特权流的核心作用是为原始传感器流提供高质量的监督信号和先验知识,其训练过程严格遵循论文图 3 流程:

  • 特权输入细节:与Roach[37]和Think2Drive[4]类似,我们采用时间序列化的BEV语义掩码作为输入,具体细节置如下:

  • 特权世界模型训练

    • 编码器:5 层卷积网络,将 BEV 语义掩码映射为低维特征向量

    • RSSM:通过确定性状态 建模 ego 车辆的连续运动状态(如位置、速度、姿态),随机状态 建模其他交通参与者的不确定行为(如突发刹车、横穿马路);

    • 头部组件:

      • 奖励头:输出标量奖励 ,反映当前动作的安全性和有效性;
      • 解码器头:重建输入的 BEV 语义掩码,用于优化特征表征;
      • 继续标志头:输出二进制值 (0/1),指示当前 episode 是否因碰撞、违规等终止;
    • 损失函数:包含预测损失 、动态损失 和表征损失 ,公式如下:


      其中 表示停止梯度操作,避免训练过程中梯度冲突;

  • 特权策略训练:采用 Actor-Critic 架构,通过在特权世界模型中进行多步滚动(Rollout)生成轨迹数据,基于时序差分(TD)学习优化策略:

    • Critic 网络:通过最大似然损失学习未来回报分布 ,公式为

    • Actor 网络:结合熵正则化提升探索性,损失公式为


      其中 为回报分布的 EMA 标准化项。

(2)原始传感器流(Raw Sensor Stream)
原始传感器输入(Raw Sensor Input):

原始传感器输入 包含多视角图像和 IMU 数据。我们采用 BEVFormer 作为原始传感器流的编码器 ,其输出网格状的 BEV 特征,以便接收来自特权流的引导。输入的详细信息见附录 C.1,如下:

原始传感器世界模型(Raw Sensor World Model):

如图 4 所示,原始传感器世界模型与特权世界模型架构相似,仅在编码器 和头部组件上存在差异 ------ 不同编码器用于处理不同类型输入。头部组件方面,仅保留解码器头,该头部基于 BEV 语义掩码提供监督信号,而非直接重建多视角视频。

此外,研究发现学习奖励或继续标志(二者均为单一标量)会对原始传感器流产生不利影响:相邻的相似帧可能对应截然不同的奖励和继续标志标签,这种矛盾会造成模型混淆,进而阻碍收敛。

原始传感器策略(Raw Sensor Policy):

如图 5 所示,原始传感器策略通过强化学习(RL)在双流长模型中训练。滚动过程中,引导机制会确保两个世界模型在未来预测上的一致性。文中采用特权世界模型的头部组件获取奖励和继续标志,为原始传感器策略提供更准确、稳定的监督信号。

2.3 引导机制(Guidance Mechanism)

引导机制是 Raw2Drive 的核心创新,论文中详细阐述了其设计原理,用于解决双流模型训练中的对齐问题和累计误差,分为滚动引导和头部引导两部分,二者协同确保训练稳定性:

(1)滚动引导(Rollout Guidance)

滚动引导的核心目标是保证双流世界模型在多步滚动预测过程中的状态一致性,避免原始传感器数据的噪声和冗余导致预测偏差累积。其设计严格遵循论文图 6 的三组件对齐逻辑:

① 三组件对齐约束
  • 时空对齐(Spatial-Temporal Alignment)

    • 问题:原始传感器编码器输出 因图像噪声和冗余易出现空间错位或时序抖动;
    • 解决方案:通过 MSE 损失约束 与特权流编码器状态 的逐网格对齐,确保每一时间步的 BEV 特征在空间位置和时序演化上保持一致;
    • 损失项:,其中 =10,grid num为 BEV 视角下的网格数量。
  • 抽象状态对齐(Abstract-State Alignment)

    • 确定性状态对齐: 通过 MSE 损失约束(=5),保证 ego 车辆自身状态(位置、速度)的预测一致性;
    • 随机状态对齐: 通过 KL 散度约束(=10),确保对其他交通参与者行为预测的分布相似性。
② 整体损失函数

该损失直接添加到原始传感器世界模型的总损失中(),确保训练过程中双流状态的强制对齐。

③ 随机消除策略
  • 问题:标准 RSSM 在滚动过程中会对随机状态 分别采样,导致双流模型的采样差异随时间累积,最终破坏状态一致性;
  • 解决方案:仅从原始传感器流的随机状态分布 中采样一次 ,将其直接输入特权世界模型的 RSSM 中计算 ,同时用于原始传感器流计算 ,彻底消除采样随机性带来的累计误差(如图 6c 所示)。
④ 有效性验证

论文附录 F 的实验表明(如图 7 所示),缺少滚动引导时,原始传感器世界模型的损失始终无法收敛,而加入引导后损失快速下降并稳定在低水平,验证了该机制的核心作用。

(2)头部引导(Head Guidance)

如上节所述,原始传感器世界模型的训练仅涉及解码器头。文中未训练奖励头和继续标志头,原因是直接利用原始传感器输入训练这两个头部会引发收敛问题 ------ 视频中相邻帧的视觉特征高度相似,但奖励值和继续标志可能出现突变(如图 9 所示),导致网络难以学习稳定模式。

在基于模型的强化学习(MBRL)中,奖励和继续标志对原始传感器策略的训练至关重要。因此,文中在训练原始传感器策略时,虽然未训练奖励头和继续标志头,但采用了特权世界模型输出的准确奖励和继续标志作为监督信号。如图 2(c)下半部分和图 5 所示,在每个时间步 ,原始传感器世界模型执行由原始传感器策略 生成的动作 ,使系统过渡到下一潜在状态;同时,特权世界模型执行相同动作进行滚动预测。由于滚动引导(Rollout Guidance)已确保两个世界模型的一致性,因此可直接使用特权世界模型输出的奖励rt​和继续标志 。最终,生成的序列将作为优化原始传感器策略的训练数据。值得注意的是,文中还采用了随机性消除技术,以保证奖励和继续标志的准确性。此外还利用训练好的特权策略收集数据存入回放缓冲区,并将其动作分布蒸馏到原始传感器策略中。

  • 消融验证:论文表 9 验证了头部引导的有效性:

2.4 训练流程与动作空间

(1)两阶段训练流程(严格遵循论文算法 1)

Raw2Drive 的训练分为两个阶段,交替更新世界模型和策略,确保训练稳定性:

  1. 阶段一:特权流训练(Phase I)

    • 步骤 1:利用当前特权策略 与 CARLA 模拟器交互,收集特权观测轨迹,存入特权回放缓冲区
    • 步骤 2:从 中采样轨迹片段,训练特权世界模型 WM,最小化损失函数
    • 步骤 3:在 中进行多步滚动,生成预测轨迹
    • 步骤 4:基于预测轨迹训练特权策略 ,优化 Actor-Critic 网络;
    • 重复步骤 1-4,直至 收敛。
  2. 阶段二:原始传感器流训练(Phase II)

    • 步骤 1:利用当前原始传感器策略 与模拟器交互,收集原始传感器轨迹,存入原始回放缓冲区
    • 步骤 2:从 中采样轨迹片段,训练原始传感器世界模型,损失为基础损失加滚动引导损失;
    • 步骤 3:在中进行多步滚动,通过头部引导获取特权流的 ,生成预测轨迹
    • 步骤 4:基于预测轨迹微调原始传感器策略 ,继承特权策略的先验知识;
    • 重复步骤 1-4,直至 收敛。
(2)离散动作空间设计(严格遵循论文表 12)

为平衡动作表达能力和训练复杂度,Raw2Drive 将连续动作空间(油门、刹车、转向、倒车)分解为 39 个离散动作,覆盖所有合法驾驶场景:

  • 油门:0、0.3、0.5、0.7、1.0 五个档位;
  • 刹车:仅 0 档位(通过油门为 0 实现减速,简化动作空间);
  • 转向:-1.0、-0.7、-0.6、-0.5、-0.3、-0.2、-0.1、0、0.1、0.2、0.3、0.5、0.6、1.0 十四个档位;
  • 倒车:True/False 两个状态;
  • 动作示例:(油门 = 0.7, 刹车 = 0, 转向 =-0.5, 倒车 = False) 表示中等加速 + 大幅左转向,(油门 = 0.5, 刹车 = 0, 转向 = 0.3, 倒车 = True) 表示倒车 + 小幅右转向。

2.5 模型配置细节

  • 框架:PyTorch;
  • 优化器:AdamW(权重衰减 = 0.00);
  • 学习率:世界模型()为 1e-5,策略()为 3e-5;
  • 损失权重:=10、=5、=10;
  • 奖励设计:完全沿用 Think2Drive 的奖励函数和奖励塑形方法,确保奖励信号的合理性;
  • 训练数据量:1000 条不同天气条件下的 CARLA 路线,覆盖多样驾驶场景。

三、实验验证与结果分析

Raw2Drive 在 CARLA v2 和 Bench2Drive 两大权威基准上进行了全面验证,对比了现有 IL 和 RL 方法的性能,同时通过消融实验验证了核心组件的有效性。

3.1 实验设置

  • 模拟器:CARLA 0.9.15.1,支持闭环驾驶评估;
  • 基准测试
    • CARLA v2:包含验证集和测试集两条长路线(7-10 公里),含多个复杂 corner case;
    • Bench2Drive:更全面的基准,包含 220 条短路线(每条含一个 corner case),用于评估多维度驾驶能力;
  • 训练数据:1000 条不同天气条件下的路线用于 RL 训练;
  • 评估指标
    • RC(Route Completion):路线完成率;
    • IS(Infraction Score):违规次数(与行人、车辆碰撞、闯红灯等);
    • DS(Driving Score):驾驶得分(RC×IS);
    • SR(Success Rate):成功完成路线比例(无违规且在规定时间内)。

3.2 与 SOTA 方法的性能对比

(1)CARLA v2 基准结果

表 3 展示了 CARLA v2 验证集和测试集的性能对比,由于长路线评估的累计惩罚机制存在缺陷,Raw2Drive 仍在核心指标上大幅领先:

可以看出,Raw2Drive 的路线完成率(RC)远超现有 IL 方法,证明其在复杂长路线场景中的鲁棒性。

(2)Bench2Drive 多能力评估

表 4 展示了 Bench2Drive 多维度驾驶能力的评估结果,Raw2Drive 在并道、超车、紧急制动等关键能力上均取得 SOTA:

Raw2Drive 在超车(51.11%)和紧急制动(62.26%)等核心安全能力上表现最优,验证了 RL 在动态风险应对中的优势。

(3)Bench2Drive 闭环评估

表 5 展示了 Bench2Drive 闭环驾驶的综合性能,Raw2Drive 在驾驶得分(DS)和成功 rate(SR)上显著领先:

作为仅依赖原始传感器输入的方法,Raw2Drive 的 DS(71.36)和 SR(50.24%)远超其他 IL 方法,且效率接近特权输入的 Think2Drive,证明其工程实用性。

3.3 消融实验验证核心组件有效性

为验证双流架构和引导机制的必要性,Raw2Drive 进行了全面的消融实验,结果如下:

(1)原始传感器世界模型头部选择

表 6 验证了仅保留解码器头的合理性:

结果表明,添加奖励头或继续标志头会导致 DS 大幅下降,验证了头部简化设计的正确性。

(2)滚动引导的组件必要性

表 7 验证了滚动引导中三个对齐约束的必要性:

缺少任何一个对齐约束都会导致性能严重下降,证明三个组件协同作用才能保证双流模型的一致性。

(3)参数共享与策略微调

表 10 和表 11 验证了参数共享和策略微调的必要性:

  • 参数共享(RSSM 与解码器头共享参数):DS 从 53.2 提升至 83.5,证明共享参数能提升表征学习效率;
  • 策略微调:直接使用特权策略的 DS 为 58.4,微调后提升至 83.5,证明原始传感器世界模型对策略适配的重要性。

3.4 实时性分析

Raw2Drive 的推理延迟分析如下表所示:

原始传感器流的延迟主要来自 BEVFormer 编码器(600ms),而世界模型和策略的延迟均低于 2ms,整体满足实时驾驶需求(1000ms 内)。未来可通过轻量化编码器进一步优化延迟。

四、局限性与未来展望

4.1 局限性

  1. 特权信息依赖:训练阶段仍需依赖 HD-Map 和真实边界框等特权信息,这些信息在真实场景中需通过高精度感知算法或人工标注获取;
  2. 模拟器依赖:实验基于 CARLA 模拟器,真实道路场景的复杂性(如极端天气、不规则交通参与者)仍需进一步验证;
  3. 实时性优化空间:BEVFormer 编码器的延迟较高,需通过模型压缩或专用硬件加速提升实时性能。

4.2 未来方向

  1. 真实场景适配:结合 3DGS 或扩散模型构建真实世界模拟器,减少对 CARLA 的依赖;
  2. 无特权信息训练:探索通过自监督学习替代特权信息,实现完全无监督的原始传感器模型训练;
  3. 轻量化与部署:优化编码器架构,降低推理延迟,推动方案在边缘设备上的部署;
  4. 多智能体交互优化:进一步提升模型在复杂交通流中的交互决策能力,应对多车辆、行人的动态博弈场景。

五、总结

Raw2Drive 作为首个基于原始传感器输入的端到端 MBRL 自动驾驶方案,通过双流世界模型和引导机制,成功解决了强化学习在 E2E-AD 中的训练效率、数据复杂性等核心问题。其创新点可总结为:

  1. 双流架构:利用低维结构化的特权信息辅助高维原始传感器数据训练,降低模型学习难度;
  2. 引导机制:滚动引导保证双流模型预测一致性,头部引导提供稳定监督信号,有效抑制累计误差;
  3. 高效鲁棒:训练成本低、性能超越现有 IL 方法,验证了 RL 在复杂驾驶场景中的巨大潜力。

Raw2Drive 不仅为端到端自动驾驶提供了新的技术路径,也为强化学习在机器人、智能驾驶等复杂决策领域的应用提供了重要参考,有望推动自动驾驶系统向更安全、更鲁棒的方向发展。

相关推荐
AI猫站长2 小时前
快讯|清华&上海期智研究院开源Project-Instinct框架,攻克机器人“感知-运动”割裂核心难题;灵心巧手入选毕马威中国“第二届智能制造科技50”榜单
人工智能·机器人·苹果·具身智能·project·灵心巧手
Ashley_Amanda3 小时前
春晚机器人“顶流”之争:从表演者到实用者的技术跃迁
机器人
快降重科研小助手3 小时前
前瞻与规范:AIGC降重API的技术演进与负责任使用
论文阅读·aigc·ai写作·降重·降ai·快降重
渡众机器人3 小时前
智驭未来,越野如风:北京渡众机器人全新智能履带式机器人教学科研平台正式发布!
人工智能·机器人·自动驾驶·车路协同·智能网联
沫儿笙4 小时前
机器人重工焊接节气
网络·人工智能·机器人
GAOJ_K4 小时前
弧形导轨与直线导轨:曲线运动与直线运动
运维·人工智能·科技·机器人·自动化·制造
OpenLoong 开源社区5 小时前
合作官宣 | 技术协同新标杆!openKylin 适配具身智能人形机器人计划正式启动
人工智能·机器人·开源
源于花海15 小时前
IEEE TIE期刊论文学习——基于元学习与小样本重训练的锂离子电池健康状态估计方法
论文阅读·元学习·电池健康管理·并行网络·小样本重训练
King's King17 小时前
仓储机器人操作培训教材
机器人