【Tesla】ICCV 2025技术分享

1. 写在前面

好久没有更新博客了，除去正常工作和生活之后，业余时间不是很多，但想来想，还是的坚持更新下去，因为写技术博客，是我为数不多的爱好之一，所以我又回来了哈哈哈。

不知不觉，已经在自动驾驶领域学习了3年多的时间，所以后面的内容更新，也主要是偏自驾领域以及大模型相关的多一些，不过，作为对任何技术都充满兴趣的人，是不对领域设限的，还是会把工作，学习，生活中的所思所想，继续沉淀，也希望能对更多的伙伴有帮助哇。

好，回归正题，今天整理一篇技术分享，是25年10月，ICCV 请特斯拉副总裁Ashok做的一次技术分享，分享的内容是Tesla 最近在自动驾驶领域的一些进展，众所周知，要论自驾技术这块，特斯拉依然是响当当的老大哥，在2022年之前，特斯拉还每年都有技术分享会，分享一些技术来引领自驾发展，不过后来不公开了，这次又是难得的一次分享，今天上午用了一上午时间听了一下，整理了下笔记。

视频链接：https://www.youtube.com/watch?v=wHK8GMc9O5A
分享人： Tesla AI副总裁Ashok Elluswamy（阿肖克·埃卢斯瓦米）
分享内容：公司自动驾驶技术最新进展
意义：解析Tesla的端到端自动驾驶理念以及FSD V14内部可能整合的技术升级参考
参考文章: FSD V14的技术突破------ICCV Ashok技术分享解析

大纲如下

[1. 写在前面](#1. 写在前面)
[2. 最近进展](#2. 最近进展)
[3. 特斯拉的自动驾驶理念](#3. 特斯拉的自动驾驶理念)
[4. 端到端自动驾驶的三大挑战](#4. 端到端自动驾驶的三大挑战)
- [4.1 维度灾难](#4.1 维度灾难)
- [4.2 可解释性与安全保障](#4.2 可解释性与安全保障)
- - [4.2.1 辅助输出](#4.2.1 辅助输出)
  - [4.2.2 丰富的监督信号和空间理解](#4.2.2 丰富的监督信号和空间理解)
  - [4.2.3 自然语言实现慢系统思考](#4.2.3 自然语言实现慢系统思考)
- [4.3 评测](#4.3 评测)
- - [4.3.1 闭环仿真系统](#4.3.1 闭环仿真系统)
  - [4.3.2 作用](#4.3.2 作用)
[5. TODO](#5. TODO)
- [5.1 网络出租车](#5.1 网络出租车)
- [5.2 人形机器⼈](#5.2 人形机器⼈)

2. 最近进展

2025年过去几个月特斯拉的进展：

2025.6/7月，推出了机器⼈出租⻋服务，只使用摄像头 + 神经⽹络
用户购买的汽车，从工厂下线，自动驾驶开到用户家中

3. 特斯拉的自动驾驶理念

从V12版本开始，Tesla FSD转向了全⾯的端到端架构，这也带动了业界对端到端技术的研究热潮。

端到端本质就是马老板时常挂在嘴边的"Photon In，Control Out"，也就是从传感器像素输⼊到⻋

辆控制信号（如油门、刹车）输出，都由⼀个宏观意义上的神经网络模型完成。该架构减少了中间
规则处理环节，使得模型训练的梯度能够从输出端⽆缝反向传播⾄感知端，从而实现模型各部分的

整体协同优化。以此类模型为核⼼的⾃动驾驶系统即为端到端系统

大型的端到端神经网络，接受输⼊信号 -> 产生行为，由神经网络完成，感知结果变成隐式向量传

递，而不是之前比较明确的感知信息（车辆，道路边界等)

此次分享，Tesla AI团队才更系统地阐释了采用端到端方案解决自动驾驶问题的核心理由

编码人类价值判断的困难：人类偏好与人类价值观的一致性，不是刹车多少，何时刹车的客观价值能衡量的, 很难将人类真正想要的东西编成字典
- 下面是直观的电车难题例子：
  - 穿过水坑还是到对向车道？用代码量化两者的风险会很难
  - 预设规则很难完美定义此类情境下的合理行为。而端到端系统通过⼤量学习⼈类驾驶数据，能够掌握这些细微的价值权衡，在恰当时机做出类似"借道绕行"的决策。
模块间传递消息难题 ：传统感知、预测和规划之间的接口定义不明确，在网络信息传播过程中会丢失关键信息。传统模块化自动驾驶系统中，各模块间通过预设接口通信，例如使用边界框（Bounding Box）定义车辆行人，用多段线描述车道线。
下面的例子佐证： * 左图⼀群鸡正在过马路，自驾汽车能理解，等待最后⼀只鸡过马路之后再走 * 右图⼀群鹅站在路边，自驾汽车理解完之后，决定绕行

FSD应对鸡、鹅等动物过马路的实拍视频表明，传统感知接口难以定义这些动物的类型、过马路意图等属性。

既定接口会形成信息瓶颈，而端到端模型中神经网络间的直接信息传递，能最大程度减少这种信息损失，确保决策模块获取更全面的环境信息
应对现实世界的长尾问题：此优势直接源于上述信息瓶颈的解决。端到端模型确保在罕见场景下，决策系统仍能基于丰富的输入信息做出合理判断，并通过学习人类驾驶行为获得处理长尾场景的能力。
同构计算带来的确定性延迟：自动驾驶系统对时延极其敏感。传统基于规则和优化的规控方案，其求解时间受环境复杂性、初始解质量等多种因素影响，难以保证稳定。而端到端神经网络具有固定的模型结构和参数量，其单帧计算延迟是确定性的，有利于控制系统的时间波动。
更好地契合AI领域的数据规模效应：端到端自动驾驶是彻底的数据驱动范式，它摒弃了大量人为设计的规则和评价指标（即Sutton在"Bitter Lesson"中提及的"人类知识"），从而能更充分地利用计算力和数据的增长来提升系统性能。

4. 端到端自动驾驶的三大挑战

开发e2e系统挑战：

4.1 维度灾难

维度灾难：输入上下稳非常大（多秒的视频输入，信息太多）

输入token: 过去30s的时间窗口， 36hz采集的7路500万像素摄像头视频等，信息维度相当于20亿token
a. 7台摄像头 × 36帧/秒 × 500万像素 × 30秒历史数据 / (5×5像素patch)
b. 导航地图及未来数英里路线
c. 100Hz运动学数据（如速度、惯性测量单元、里程计等）
d. 48kHz音频数据 (可能是FSD14新增）
输出token：
a. 下次转向与加速指令，方向盘等，约等于2亿token
需学习20亿token→2token的正确因果映射关系

因此端到端系统要解决的是⼀个从极高维度到极低维度的映射问题，而高维到低维的映射本质上是多对一的，这个映射还要反馈正确逻辑，这就好比要从一团乱麻中要找到最终指引向出口的那唯一的一根，其训练难度可想而知。

Tesla通过强大的数据引擎（Data Engine）来应对此挑战，致力于采集大量高质量数据。

Tesla车队每日可产生相当于500年驾驶时长的数据，但其中多数为常规场景。

Tesla采用了复杂的触发机制来回传长尾场景数据，如使用专用模型采集特殊车辆数据、基于预测偏差回传bad cases、收集所有用户接管数据，以及感知状态突变的场景。

触发机制的trigger 精致数据采集
nn 网络捕捉corner case，比如应急车辆
事后对比评估预测与实际情况的差异（影子模式）
自动驾驶过程的用户干预（接管）
状态空间发生重大变化
a. 状态空间发生重大变化可能是指车辆行驶过程中周围环境、车辆自身状态等发生了显著的改变。比如，车辆从高速公路驶入城市复杂路况区域，周围交通参与者增多、道路标志变化等，这些都意味着⻋辆所处的状态空间发生了重大变化。

高效的数据筛选与回传机制，使得Tesla能收集海量的极端场景和主动避险数据，确保FSD模型具备极强的泛化能力。

预判前车可能失控旋转，提前开始减速

4.2 可解释性与安全保障

简单的端到端系统作为"黑箱"，在问题分析、行为解释和安全验证方面存在隐患。Ashok介绍说，Tesla的端到端系统并非彻头彻尾的"黑箱"系统。

4.2.1 辅助输出

思维链与流程验证，提供解决方案，基础模型同时预测多种输出

3D空间占用与人流分布
3D⾼斯特征
车辆、行人、骑行者等物体识别
交通控制设施（交通灯，信号牌）
道路边界、车道及语义信息
限速及其他道路属性
以自然语言表达的决策结果（怀疑VLA)

神经网络输出里面会携带额外的辅助信息，帮助调试。

这些中间结果信息不仅仅用于车机可视化渲染，更加可以通过条件概率，也就是大语言模型中广泛应用的思维链COT（Chain-of-Thought）形式以及过程校验手段，确保了最终输出驾驶控制信号的正确性。

Tesla是强视觉方案，具备语言形式的决策输出，还有动作控制信号输出，不用说⼤家可能也意识到了，Tesla FSD V14很可能采采的就是基于VLA的端到端技术⽅案，而这一技术路线其实与国内头部自动驾驶团队不谋而合，比如理想、小鹏都在最新的智驾功能中采用了VLA为核心的技术方案。

在所有COT中间输出中，自然语言决策和3D高斯表征尤为引人注目。

4.2.2 丰富的监督信号和空间理解

Feedforward 3D Gaussian提供丰富监督信号和空间理解。

3D Gaussian是目前在3D重建领域非常流行的⼀种表征方式 ，基本上他利用了众多具备位置信息，作用范围（协方差），以及相应颜色，透明度属性的高斯椭球体对场景进行表征，然后再利用投影关系将可微分性能良好的高斯椭球投影到图像平面进行可微分渲染，并利用渲染出来的图像与相机捕捉的真实图像差异作为监督信号对场景重建表征进行优化，最终达到照片级的逼真场景重建效果 。

相比点云或多边形，3D⾼斯表达更高效可微；相比NeRF等隐式表达，其几何信息更明确，因此3D Gaussian成为了目前自动驾驶领域最主流的场景重建表征。