端到端自动驾驶技术路线(E2E)

目前学术界和工业界E2E的技术路线大致如下:

  1. 直接端到端,例如PLUTO、Tranfuser、VAD
    1. 模块化端到端,例如 UniAD
  2. WorldModel
  3. Diffusion策略,例如 DiffusionDrive
  4. 大语言模型路线: 例如 driveGPT4,EMMA,Senna

再再细化而言,考虑到不同厂商和车型,是否纯视觉?有Lidar的话如何融合的?端到端模型的训练范式是怎样的,模仿学习/监督学习/强化学习?Loss的设计有何创新?有哪些辅助loss?有无Training Trick来提升训练和推理效果?数据闭环处理上有何方法? 喂给模型的数据有无数据增强,等等。

直接端到端

PLUTO

Lateral 和 Longitudinal 的self attention是亮点

  1. 模仿学习 + 纯视觉
  2. 引入了一种基于查询的模型架构,该架构能够同时处理横向和纵向的规划动作,从而实现灵活多样的驾驶行为。
  3. 提升横向行为智能性
  4. 提出了一种基于微分插值(differential interpolation)的辅助损失计算新方法。这种方法适用于广泛的辅助任务,并允许在基于向量的模型中进行高效的批量计算。
  5. 仅仅依赖模仿学习损失不足够,施加明确的约束在训练阶段是必要的
  6. 提出了对比模仿学习(Contrastive Imitation Learning)(CIL)框架,并伴随一系列新的数据增强手段。
  7. 该CIL框架旨在调节驾驶行为和增强交互学习,同时不会显著增加训练的复杂性。

Transfuser

GRU decoder将当前位置和目标位置作为输入,网络可以关注隐态下的相关上下文,预测下一个路点

  1. 模仿学习 + 多传感器融合(视觉和激光雷达)
  2. 一种使用自注意将图像和激光雷达表示集成的机制

VAD

GitHub - hustvl/VAD: [ICCV 2023] VAD: Vectorized Scene Representation for Efficient Autonomous Driving

矢量化的表示 + 矢量化的planning约束

  1. 模仿学习 + 纯视觉
  2. 一个用于自动驾驶的端到端矢量化范例。VADVAD摈弃了栅格化表征,将驾驶场景建模为完全矢量化的表示,摆脱了计算密集的密集光栅化表示和手工设计的后处理步骤。
  3. 通过query交互和矢量化的规划约束,隐式和显式地利用矢量化的场景信息,以提高规划的安全性
  4. 由于矢量化的场景表示和简洁的模型设计,VAD 极大地提高了推理速度

但是

  • 多模态运动预测的整合:未完全利用多模态运动预测结果。如何更有效地利用多模态轨迹预测结果,进一步提升规划性能。
  • 未融合更多交通信息:例如车道图、交通信号和道路标志,提高系统的鲁棒性和实际适用性。

VADV2

概率规划方法 + 大规模数据的动作分布作为先验

  1. 模仿学习 + 纯视觉
  2. 提出了概率规划方法以应对规划中的不确定性。设计了概率场(Probabilistic Field),用于从动作空间映射到概率分布,并通过大规模驾驶演示学习动作分布。
  3. 基于概率规划,提出了端到端驾驶模型 VADv2,该模型能够将传感器数据转化为环境令牌嵌入,输出动作的概率分布,并采样一个动作来控制车辆。
  4. Loss: 分布损失:使用KL散度最小化预测分布于数据分布的差异.

较依赖初始的action 分布。

GenAD

通过VAE将真实的ego未来轨迹映射到隐空间,然后在推理时将解码器的输出通过GRU来预测下一个隐式空间的状态

  1. 亮点在于: 通过VAE将真实的ego未来轨迹映射到隐空间,然后在推理时将解码器的输出通过GRU来预测下一个隐式空间的状态,最后通过MLP解码出下一个轨迹点。与直接输出整个轨迹的单一解码器(DR方法)相比,航点解码器执行的任务更简单,只负责解码 BEV 空间中的一个位置,而 GRU 模块则在潜在空间 Z中模拟agent的运动。

GoalFlow

CVPR'25 SOTA!中科院&地平线GoalFlow:解锁端到端生成式策略新未来~mp.weixin.qq.com/s/zSa12NsdG4V-pYsMLwyBpw


模块化端到端

UniAD

  • Backbone: 是多摄像头提取特征,通过BEVFormer转换出BEV特征。
  • TrackFormer: 负责检测和跟踪智能体。
  • MapFormer: 作为道路要素的语义抽象和执行全景分割。
  • MotionFormer: 捕获智能体和maps的交互和预测每个智能体的未来轨迹。
  • OccFormer: 以BEV特征作为查询,智能体知识作为键和值,预测多步未来占用。
  • Planner: 利用MotionFormer的表达性自我-车辆查询来预测规划结果,并远离OccFormer预测的被占用区域,以避免碰撞。
  • 监督学习 + 纯视觉
  • 模块化端到端,各个模块可分别训练
  • 相比直接end2end有一定可解释性?

强化学习+模仿学习

RAD

3个stage,感知和规划预训练+RL postrain

RL和IL交替训练

  1. 强化学习 + 模仿学习 新的训练范式
  2. 提出了第一个基于3DGS的RL框架,用于训练端到端AD策略。奖励、动作空间、优化目标和交互机制经过特别设计,以提高训练效率和效果。
  3. 结合RL和IL协同优化AD策略。RL通过建模因果关系和缩小开环差距来补充IL,而IL在人类对齐方面补充RL。

但是基于3DGS仿真环境来做强化学习,但目前所使用的3DGS环境运行方式缺乏反应性,即其他交通参与者不会根据自车的行为做出反应,仅以日志重放的形式行动。

Diffusion策略

DiffusionDrive

anchored-based预轨迹 + 扩散模型

  1. 监督学习 + 扩散模型
  2. 可适配不同感知模块
  3. anchored-based的锚轨迹从训练集中通过K-means聚类

但强依赖预先的anchored-based轨迹?

ResAD

类似方法,很有意思。ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving


大语言模型路线

EMMA


VLM&VLA路线

【RL+VLM】

AlphaDrive

相关推荐
宸津-代码粉碎机1 小时前
SpringBoot 任务执行链路追踪实战:TraceID 透传全解析,实现从调度到执行的全链路可观测
开发语言·人工智能·spring boot·后端·python
这张生成的图像能检测吗1 小时前
(论文速读)PatchTST:通道无关补丁时间序列变压器
人工智能·深度学习·神经网络·计算机视觉·注意力机制·vit·时序模型
CoderJia程序员甲1 小时前
GitHub 热榜项目 - 日榜(2026-03-19)
人工智能·ai·大模型·github·ai教程
IT_陈寒2 小时前
SpringBoot项目启动速度提升300%?这5个隐藏配置太关键了!
前端·人工智能·后端
rainy雨2 小时前
精益生产系统功能拆解:利用精益生产解决多品种小批量场景下的库存积压难题
大数据·人工智能·精益工程
小碗细面2 小时前
5 分钟上手 Claude 自定义 Subagents
前端·人工智能·ai编程
FMRbpm2 小时前
斑马日记2026.3.19
机器学习·新手入门
白鲸开源2 小时前
SeaTunnel × Gravitino:Schema URL 驱动的表结构自动感知方案
大数据·人工智能·开源
Narrastory2 小时前
明日香 - Pytorch 快速入门保姆级教程(七)
人工智能·pytorch·深度学习