端到端自动驾驶的基础概念

欢迎大家关注我的B站：

1.端到端自动驾驶的定义

端到端自动驾驶也就是end-to-end autonomous driving（下面用端到端 代替）的早期定义是"从传感器输入到控制输出的单一神经网络模型 "，现阶段端到端 的定义是"感知信息无损传递，自动驾驶系统的全局优化"

虽然在特斯拉FSD 宣布切换至端到端技术架构后，国内智能驾驶公司也纷纷推出各种端到端智驾系统，但是技术主义者往往会认为这并不是真正的端到端，其实这些争议也来源于对于端到端的定义不清晰。

第一阶段：感知端到端。通过多传感器融合的数据输入，最后表征成BEV范式，已经是目前非常常见的感知方案。
第二阶段：决策规划端到端。预测到决策到规划都是通过深度学习，集成到一个神经网络中去训练学习。虽然都是神经网络但是每个模型的训练优化局限在模块内部，传递会有信息损失。
第三阶段：模块化端到端。这一阶段主要是感知和决策规划之间不再是人类理解的结果，而是特征向量，也就是两个模块不能独立训练，而支持跨模块的梯度传导。
第四阶段：One Model。这时候网络的内部也不再有明确的划分。

端到端不等同于大模型，大模型更关注模型的参数量以及智能涌现能力 ，而端到端强调结构上的梯度可传导以及全局优化。所以大模型为端到端提供了很好的可选方案，但是端到端并非必然用大模型实现。

自动驾驶目前的大模型由于车端算力以及实时性 的影响，很难达到NLP领域的标准 ，只是比自动驾驶感知领域 的参数量大的多而已。但是LLM仍旧是为了智驾的趋势，因为其强大的推理能力和可解释性 有望解决决策规划领域各种corner case。

世界模型是指能够学习以及揭示真实物理世界及数学定律的模型。世界模型是自动驾驶开发中数据生成器的角色，他可以源源不断生成数据 ，并且覆盖大量车无法采集到的极端工况 ，对长尾问题很有帮助，并且在线生成的成本优势很大。

世界模型自身具备理解周围环境以及交互情况 ，因此只需要调整或增加一些输出链路或模块就可实现端到端。但短期内制约这种方案的难点是车端算力 不够，后续会考虑蒸馏或其他方式在保持对真实世界理解的能力下最大程度裁剪模型。

有些从业者认为端到端一定只能基于纯视觉，这个误解源于BEV范式成为业界主流，但是多传感器的选择和融合只是模型的输入，哪些传感器能让端到端自动驾驶效果更好并没有大量的实验去验证出来。