1. 写在前面
好久没有更新博客了,除去正常工作和生活之后, 业余时间不是很多, 但想来想,还是的坚持更新下去,因为写技术博客,是我为数不多的爱好之一,所以我又回来了哈哈哈。
不知不觉,已经在自动驾驶领域学习了3年多的时间,所以后面的内容更新,也主要是偏自驾领域 以及 大模型相关的多一些, 不过,作为对任何技术都充满兴趣的人,是不对领域设限的, 还是会把工作,学习,生活中的所思所想,继续沉淀, 也希望能对更多的伙伴有帮助哇。
好, 回归正题, 今天整理一篇技术分享, 是25年10月,ICCV 请特斯拉副总裁Ashok做的一次技术分享, 分享的内容是Tesla 最近在自动驾驶领域的一些进展, 众所周知, 要论自驾技术这块, 特斯拉依然是响当当的老大哥, 在2022年之前, 特斯拉还每年都有技术分享会,分享一些技术来引领自驾发展,不过后来不公开了,这次又是难得的一次分享, 今天上午用了一上午时间听了一下, 整理了下笔记。
- 视频链接:https://www.youtube.com/watch?v=wHK8GMc9O5A
- 分享人: Tesla AI副总裁Ashok Elluswamy(阿肖克·埃卢斯瓦米)
- 分享内容:公司自动驾驶技术最新进展
- 意义:解析Tesla的端到端自动驾驶理念以及FSD V14内部可能整合的技术升级参考
- 参考文章: FSD V14的技术突破------ICCV Ashok技术分享解析

大纲如下
- [1. 写在前面](#1. 写在前面)
- [2. 最近进展](#2. 最近进展)
- [3. 特斯拉的自动驾驶理念](#3. 特斯拉的自动驾驶理念)
- [4. 端到端自动驾驶的三大挑战](#4. 端到端自动驾驶的三大挑战)
-
- [4.1 维度灾难](#4.1 维度灾难)
- [4.2 可解释性 与 安全 保障](#4.2 可解释性 与 安全 保障)
-
- [4.2.1 辅助输出](#4.2.1 辅助输出)
- [4.2.2 丰富的监督信号和空间理解](#4.2.2 丰富的监督信号和空间理解)
- [4.2.3 自然语言实现慢系统思考](#4.2.3 自然语言实现慢系统思考)
- [4.3 评测](#4.3 评测)
-
- [4.3.1 闭环仿真系统](#4.3.1 闭环仿真系统)
- [4.3.2 作用](#4.3.2 作用)
- [5. TODO](#5. TODO)
-
- [5.1 网络出租车](#5.1 网络出租车)
- [5.2 人形机器⼈](#5.2 人形机器⼈)
2. 最近进展

2025年过去几个月特斯拉的进展:
- 2025.6/7月,推出了机器⼈出租⻋服务, 只使用摄像头 + 神经⽹络
- 用户购买的汽车, 从工厂下线,自动驾驶 开到 用户家中
3. 特斯拉的自动驾驶理念
从V12版本开始,Tesla FSD转向了全⾯的端到端架构,这也带动了业界对端到端技术的研究热潮。
端到端本质就是马老板时常挂在嘴边的"Photon In,Control Out",也就是从传感器像素输⼊到⻋
辆控制信号(如油门、刹车)输出,都由⼀个宏观意义上的神经网络模型完成。该架构减少了中间
规则处理环节,使得模型训练的梯度能够从输出端⽆缝反向传播⾄感知端 ,从而实现模型各部分的整体协同优化。以此类模型为核⼼的⾃动驾驶系统即为端到端系统

大型的端到端神经网络, 接受输⼊信号 -> 产生行为, 由神经网络完成, 感知结果变成隐式向量传
递,而不是之前比较明确的感知信息(车辆, 道路边界等)
此次分享,Tesla AI团队才更系统地阐释了采用端到端方案解决自动驾驶问题的核心理由

-
编码人类价值判断的困难:人类偏好 与 人类价值观的一致性,不是刹车多少, 何时刹车的客观价值能衡量的, 很难将人类真正想要的东西编成字典
- 下面是直观的电车难题例子:
- 穿过水坑 还是 到 对向车道? 用代码量化两者的风险 会 很难
- 预设规则很难完美定义此类情境下的合理行为。而端到端系统通过⼤量学习⼈类驾驶数据,能够掌握这些细微的价值权衡,在恰当时机做出类似"借道绕行"的决策。

- 下面是直观的电车难题例子:
-
模块间传递消息难题 :传统感知、预测和规划之间的接口定义不明确 , 在网络信息传播过程中 会丢失关键信息。传统模块化自动驾驶系统中,各模块间通过预设接口通信,例如使用边界框(Bounding Box)定义车辆行人,用多段线描述车道线。
下面的例子佐证: * 左图⼀群鸡正在过马路, 自驾汽车能理解,等待最后⼀只鸡过马路之后再走 * 右图⼀群鹅站在路边,自驾汽车理解完之后,决定绕行

FSD应对鸡、鹅等动物过马路的实拍视频表明,传统感知接口难以定义这些动物的类型、过马路意图等属性。
既定接口会形成信息瓶颈,而端到端模型中神经网络间的直接信息传递,能最大程度减少这种信息损失,确保决策模块获取更全面的环境信息
-
应对现实世界的长尾问题:此优势直接源于上述信息瓶颈的解决。端到端模型确保在罕见场景下,决策系统仍能基于丰富的输入信息做出合理判断,并通过学习人类驾驶行为获得处理长尾场景的能力。
-
同构计算带来的确定性延迟:自动驾驶系统对时延极其敏感。传统基于规则和优化的规控方案,其求解时间受环境复杂性、初始解质量等多种因素影响,难以保证稳定。而端到端神经网络具有固定的模型结构和参数量,其单帧计算延迟是确定性的,有利于控制系统的时间波动。
-
更好地契合AI领域的数据规模效应:端到端自动驾驶是彻底的数据驱动范式,它摒弃了大量人为设计的规则和评价指标(即Sutton在"Bitter Lesson"中提及的"人类知识"),从而能更充分地利用计算力和数据的增长来提升系统性能。
4. 端到端自动驾驶的三大挑战
开发e2e系统挑战:

4.1 维度灾难
维度灾难: 输入上下稳非常大(多秒的视频输入,信息太多)

- 输入token: 过去30s的时间窗口, 36hz采集的7路500万像素摄像头视频 等, 信息维度相当于20亿token
a. 7台摄像头 × 36帧/秒 × 500万像素 × 30秒历史数据 / (5×5像素patch)
b. 导航地图及未来数英里路线
c. 100Hz运动学数据(如速度、惯性测量单元、里程计等)
d. 48kHz音频数据 (可能是FSD14新增) - 输出token:
a. 下次转向与加速指令 ,方向盘等,约等于2亿token - 需学习20亿token→2token的正确因果映射关系
因此端到端系统要解决的是⼀个从极高维度到极低维度的映射问题,而高维到低维的映射本质上是多对一的,这个映射还要反馈正确逻辑,这就好比要从一团乱麻中要找到最终指引向出口的那唯一的一根,其训练难度可想而知。

Tesla通过强大的数据引擎(Data Engine)来应对此挑战,致力于采集大量高质量数据。
Tesla车队每日可产生相当于500年驾驶时长的数据,但其中多数为常规场景。
Tesla采用了复杂的触发机制来回传长尾场景数据,如使用专用模型采集特殊车辆数据、基于预测偏差回传bad cases、收集所有用户接管数据,以及感知状态突变的场景。
- 触发机制的trigger 精致数据采集
- nn 网络 捕捉corner case,比如应急车辆
- 事后对比评估预测 与 实际情况 的差异(影子模式)
- 自动驾驶过程的 用户干预(接管)
- 状态空间发生重大变化
a. 状态空间发生重大变化可能是指车辆行驶过程中周围环境、车辆自身状态等发生了显著的改变。比如,车辆从高速公路驶入城市复杂路况区域,周围交通参与者增多、道路标志变化等,这些都意味着⻋辆所处的状态空间发生了重大变化。
高效的数据筛选与回传机制,使得Tesla能收集海量的极端场景和主动避险数据,确保FSD模型具备极强的泛化能力。

预判前车可能失控旋转,提前开始减速
4.2 可解释性 与 安全 保障
简单的端到端系统作为"黑箱",在问题分析、行为解释和安全验证方面存在隐患。Ashok介绍说,Tesla的端到端系统并非彻头彻尾的"黑箱"系统。
4.2.1 辅助输出

思维链 与 流程验证,提供解决方案,基础模型同时预测多种输出
- 3D空间占用与人流分布
- 3D⾼斯特征
- 车辆、行人、骑行者等物体识别
- 交通控制设施(交通灯,信号牌)
- 道路边界、车道及语义信息
- 限速及其他道路属性
- 以自然语言表达的决策结果(怀疑VLA)
神经网络输出里面会携带额外的辅助信息, 帮助调试。

这些中间结果信息不仅仅用于车机可视化渲染,更加可以通过条件概率,也就是大语言模型中广泛应用的思维链COT(Chain-of-Thought)形式以及过程校验手段,确保了最终输出驾驶控制信号的正确性。
Tesla是强视觉方案,具备语言形式的决策输出,还有动作控制信号输出,不用说⼤家可能也意识到了,Tesla FSD V14很可能采采的就是基于VLA的端到端技术⽅案,而这一技术路线其实与国内头部自动驾驶团队不谋而合,比如理想、小鹏都在最新的智驾功能中采用了VLA为核心的技术方案。
在所有COT中间输出中,自然语言决策和3D高斯表征尤为引人注目。
4.2.2 丰富的监督信号和空间理解
Feedforward 3D Gaussian提供丰富监督信号和空间理解。
3D Gaussian是目前在3D重建领域非常流行的⼀种表征方式 ,基本上他利用了众多具备位置信息,作用范围(协方差),以及相应颜色,透明度属性的高斯椭球体对场景进行表征,然后再利用投影关系将可微分性能良好的高斯椭球投影到图像平面进行可微分渲染,并利用渲染出来的图像与相机捕捉的真实图像差异作为监督信号对场景重建表征进行优化,最终达到照片级的逼真场景重建效果 。
相比点云或多边形,3D⾼斯表达更高效可微;相比NeRF等隐式表达,其几何信息更明确,因此3D Gaussian成为了目前自动驾驶领域最主流的场景重建表征。
然而⼀般的3D场景重建需要进行逐场景优化,重建效率仍旧是比较低的。最近的⼀些工作则通过利用神经网络模型的泛化能力,通过重建模型的前向推理推导出场景几何信息和颜色属性,不需要点云的初始化,在重建效率上获得了极大提升,并且对于新视角生成有非常大的灵活性。
Ashok在分享中展示Tesla基于生成重建范式 FeedForward 3D Gaussian,在生成效率,初始化条件,动态物体重建,还有新视角生成上都有着非常明显的优势。

从Tesla的效果上看,不仅重建过程生成了语义分割信息,还能够支持非常大的新角度渲染,这样的能力一方面解决了Tesla端到端模型训练时候单纯监督驾驶动作监督信号过于稀疏单一的问题,也确保了Tesla对周围环境的良好空间理解,类似的重建技术也支撑了Tesla实现闭环仿真系统。

4.2.3 自然语言实现慢系统思考
Ashok在分享中给出了⼀个利用快慢双系统思维中慢思考应对施工长尾场景的实际例子。

在这个场景中,Tesla驾驶AI不仅通过文字识别道路封路(Road Closed)标志,还通过逻辑推理得出无法直行,并识别左侧绕行标志,最终做出左转决策,展现了逻辑推理能力在复杂决策中的关键作用。
4.3 评测
Ashok本次分享的最重要的观点莫过于完善的评测体系对于端到端系统的重要性了。

评测是实现端到端系统的核心壁垒,是三个问题中最棘手的问题:
- 无论数据集质量多高,训练Loss不能代表端到端模型性能(合理的评测指标是关键)
- 良好的开环表现并不能保证闭环结果出色(所以闭环的评测是必要的)
- 自动驾驶存在多种驾驶行为来避免驾驶失败,评测指标需要正确的反应这种驾驶行为的多模态性
- ⼀种方法是来评估对驾驶行为结果的预测(强化学习?)
- 需要平衡且全⾯的评估数据集(数据,核心关键还是数据)
- 枯燥乏味,但是告诉你个秘密,评测至关重要
4.3.1 闭环仿真系统
Tesla完善的评测体系中的核心就是基于神经网络的闭环仿真系统。这个仿真系统可以通过收集⼤量廉价的离线<状态-动作>数据对 进行训练。

生成的数据: 8个摄像头的数据 由 同⼀个神经网络输出, 效果非常逼真

4.3.2 作用
Ashok展示了这样的闭环仿真系统的几大作用:
-
利用闭环仿真验证端到端policy的正确性
重新评估在历史问题上的新策略
2. 利用场景编辑生成能力生成对抗样本体验模型能力
左边是原始视频, 右边是合成的对抗场景, 右边白车让他横穿马路
-
利用模拟器在闭环仿真系统中获取人驾真值

从Tesla闭环仿真分享中我们可以发现Tesla的场景重建,生成,编辑能力都非常强大,不过Tesla的所有场景都是基于真实场景进行训练,编辑修改而来。
我想这很好的解答了为什么无论世界模型/世界引擎多么强大,丰富多样的真实数据永远都是自动驾驶中的核心资源,因为无论多强大的世界模型,其训练数据都来自于真实数据,训练数据的多样性和质量决定世界模型的性能。
而无论世界模型的性能多么强大,单纯坐在办公室的研发工程师无法想象真实世界的驾驶场景可以变得多么多样且复杂,所以最复杂的长尾场景⼀定是基于真实数据衍生来的,而不能无中生有。
因此在自动驾驶领域,拥有众多丰富多样真实数据的车企,就是在端到端数据驱动的自动驾驶系统研发中拥有巨大的优势。
5. TODO
下面这个环节, 特斯拉简单介绍了下未来的工作开展方向:
5.1 网络出租车

将大规模无人监督自动驾驶引入现实世界: 网络出租车业务
5.2 人形机器⼈
实际上,还有⼀件事:将大规模自动驾驶技术与类人机器人引入现实世界。

Tesla的强大闭环仿真引擎同样可以迁移到机器人领域,而机器人Optimus(擎天柱)和自动驾驶FSD技术栈的统一,也为后续Cross Embodiment带来的更泛化的具身AI发展带了巨大的想象空间!
