目前整个自动驾驶行业目前正在经历从"规则驱动的模块化架构"向"数据驱动的端到端大模型"的剧烈范式转移。
对于习惯了处理上游感知结果、写状态机、精调 OSQP 求解器或者 Pure Pursuit 算法的开发者来说,入门端到端不仅是技术栈的扩展,更是一次底层思维方式的"破与立"。
第一阶段:思维转换与流派认知
目前的端到端自动驾驶主要分为三个流派:
-
直接输出控制流(纯端到端):传感器数据(图像、点云)输入神经网络,直接输出方向盘转角和油门刹车(如特斯拉 FSD v12 的早期理念,或早期的 ALVINN/PilotNet)。这种完全黑盒,极难调试。
-
轨迹规划流(主流学术与落地形态) :网络输入传感器数据,输出的是自车的未来行驶轨迹(Trajectory)。拿到轨迹后,依然交给传统的 PID/MPC 控制器去执行。这对于规控背景的开发者极其友好。
-
模块化端到端(Modular E2E):网络内部依然保留了感知、预测、规划的子模块,具有一定的可解释性,但整个大网络是联合优化训练的(如 UniAD)。
第二阶段:精读核心里程碑论文
学术界和工业界的风向标,建议按以下顺序精读,重点看它们的网络架构和 Loss 函数是怎么设计的:
-
入局必读(系统级理解):
-
UniAD (CVPR 2023 Best Paper):极具统治力的框架。它首次将跟踪、建图、轨迹预测、占用网络(Occupancy)和规划整合到一个端到端的网络中。看懂它,你就懂了什么是"多任务联合训练"。
-
VAD (Vectorized Autonomous Driving):抛弃了极其消耗算力的稠密栅格地图,直接用矢量(Vector)来表示场景并端到端输出规划轨迹。计算效率极高,思路非常惊艳。
-
-
动作预测与模仿学习:
- ChauffeurNet (Waymo):探讨了单纯的模仿学习(Behavioral Cloning)为什么不够,以及如何通过对数据进行扰动合成(合成偏离路线的数据)来教网络如何"救车"。
-
前沿探索(大模型与世界模型):
- GAIA-1 (Wayve) 或相关的 World Model 论文。了解行业如何利用生成式 AI 来预测未来的驾驶视频帧,从而赋予模型"预见性"。
第三阶段:跑通开源 Baseline(动手实践)
看十篇论文不如跑通一次代码。端到端的训练极度依赖环境,目前最主流的验证平台是 CARLA 仿真器。
-
环境配置:在你的 Ubuntu 系统下安装配置好 CARLA Simulator。
-
研究开源标杆:不要自己从零写。去 GitHub 上拉取在 CARLA Leaderboard 上名列前茅的开源项目。
-
推荐跑一下 TCP (Trajectory-guided Control Prediction) 或者 LAV。
-
核心关注点 :仔细看它们代码里的
Dataset和DataLoader是怎么写的(如何把专家的驾驶行为提取成 Ground Truth),以及Loss是如何构成的(通常包括轨迹点距离惩罚、碰撞惩罚、偏航角惩罚等)。
-
第四阶段:思考工程落地的现实边界
在头部量产车企(比如华为、Momenta、新势力等),真正的纯黑盒端到端是极难通过功能安全认证的。
行业目前的共识是****"端到端负责上限,传统规则兜底底线"****。 神经网络负责在复杂的城区博弈中给出极其丝滑、拟人化的轨迹规划;
但是在执行层,依然会保留独立的底盘看门狗节点和基于规则的安全碰撞检测机制。
一旦发现端到端网络输出的轨迹有碰撞风险或者违反物理极限,立刻由传统安全模块接管(触发降级、缓刹或急刹)。传统的规控理论不仅没有过时,反而成为了最坚实的保命基石。