自动驾驶中的传感器技术86——Sensor Fusion（9）

自动驾驶算法的演进史，本质上是从"人工规则"向"数据驱动"，从**"模块化拆解"向"整体化协同"**进化的过程。

这一过程可以概括为四个主要阶段。以下是详细的技术演进路线图：

第一阶段：模块化规则算法 (Modular / Rule-Based)

这是自动驾驶最早期的形态（也是目前大多数传统 L2 辅助驾驶的实现方式）。

核心理念：分而治之（Divide and Conquer）。将驾驶任务拆解为独立的子任务，每个子任务由专门的团队负责。
架构流程：

感知 (Perception): 识别车道线、车辆、红绿灯（输出：目标列表）。
定位 (Localization): 确定自己在地图上的位置。
预测 (Prediction): 预测其他车辆未来 3 秒怎么走。
决策规划 (Planning): 基于规则（有限状态机 FSM）决定本车轨迹。
控制 (Control): PID/MPC 控制方向盘和油门。

特征：
接口标准化：模块之间传递的是非常抽象的、低维度的几何结果（如：障碍物框、车道线多项式、红绿灯状态）。
人为规则主导：预测和规划模块大量使用规则（Rules）和优化算法（Optimization，如二次规划 QP）。
模块解耦：感知团队只管画框准不准，规划团队只管轨迹平不平。
技术特点：
大量 C++ 代码：充满 if-else 逻辑（例如：if 前车距离 < 30m then 减速）。
接口明确：模块之间通过人为定义的接口（如 Object List）传递信息。
缺点：
信息有损传输：感知模块把一个复杂的"正在招手的人"简化成一个"行人框"，下游规划模块丢掉了"招手"这个语义信息。
累积误差 (Cascading Error): 感知错一点，预测偏一点，到了规划层误差就很大了。
长尾问题 (Long Tail): 工程师无法穷举所有路况写出对应的 if-else。

第二阶段：多任务联合感知架构 (Multi-Task Learning / HydraNet)

这是 Tesla 在 AI Day 2021 展示的架构（FSD V10 之前），也是国内新势力（小鹏、理想等）在 2022-2023 年的主流架构。

架构逻辑：共享主干 (Shared Backbone) + 多头输出 (Multi-Head)。
演进点：
在感知内部打破了壁垒。不再是用单独的模型分别跑车道线和车辆，而是用一个巨大的 Backbone (如 RegNet/Swin Transformer) 提取特征。
BEV 引入：引入 View Transformer（视角落投影），将 2D 图像特征转换到 3D BEV 空间，直接输出鸟瞰图下的感知结果。
特征：
感知变强了，不再需要复杂的后处理逻辑将 2D 拼成 3D。
但下游（预测、规划）依然是独立的、基于规则的模块。感知仅仅是为这些规则模块提供了更准的输入。

第三阶段：两段式 / 模块化端到端 (Modular End-to-End)

为了解决下游规则模块的僵化问题，业界开始尝试将预测和规划也纳入神经网络，这就诞生了 UniAD（Unified Autonomous Driving）类架构。

架构逻辑：特征级交互 (Feature-Level Interaction)。
演进点：
Query 传递：感知模块检出的 Target Query（目标向量）直接传递给预测模块，预测出的轨迹 Query 直接传递给规划模块。
全链路可导 (End-to-End Differentiable): 这是一个巨大的突破。意味着你可以用最终规划轨迹的误差，去反向优化感知的特征提取能力。
特征：
仍然保留了模块的"名分"（你有检测头、预测头、规划头），但它们在数学上已经融为一体。
解决了信息瓶颈，预测模块能"看到"感知模块提取的原始特征。

为了解决规则算法的瓶颈，行业开始引入深度学习来替代部分模块，但保留了模块化的结构以便于解释和调试。这通常被称为 UniAD (Unified Autonomous Driving) 风格或 Mid-to-Mid。

核心理念：仍然有感知、预测、规划模块，但它们都在同一个大神经网络里，通过向量（Query/Feature）连接，而不是通过人工定义的接口。
技术特点：
可微分 (Differentiable): 整个网络可以从最终的轨迹误差反向传播梯度，更新感知层的权重。感知是为了规划服务的，而不只是为了画框准。
特征共享 (Shared Backbone): 感知和预测共享同一个 BEV 特征图。
代表作： UniAD（2023 CVPR Best Paper）。它通过 Query 将检测、跟踪、映射、预测、规划串联起来。
优势：
比纯黑盒有更好的可解释性（能看到中间过程）。
比规则算法有更强的泛化能力和全局优化能力。

第四阶段：一段式端到端 (One-Stage End-to-End)

这是目前最激进、最前沿的方向，彻底抛弃了中间模块的概念。

这是 Tesla FSD V12 和 Wayve 所代表的最新方向。

架构逻辑：单一网络 (Single Network)。
演进点：
彻底取消了"检测"、"跟踪"、"预测"、"规划"这些人定义的中间任务接口。
Input: 视频流 + 导航指令 + IMU。
Output: 轨迹点 (Trajectory) 或控制指令 (Steering/Throttle)。
核心技术栈变化：
从 CNN/Transformer 转向 World Model (世界模型) 和 Generative Model (生成式模型)。
它预测的不是"这里有辆车"，而是"下一帧画面长什么样"以及"我应该在那个画面里处于什么位置"。
特征：
数据驱动：代码量极少，性能完全取决于训练数据的质量和规模。
模糊性：网络内部没有清晰的模块边界，它是一种通过模仿人类行为习得的直觉反应。
核心理念： Photon in, Control out（光子进，控制出）。输入是原始传感器数据（视频流），输出直接是方向盘转角或轨迹点。
架构流程：
Sensor Data (Video/LiDAR) -> [ Huge Neural Network ] -> Trajectory / Control Command.
技术特点：
黑盒模型：网络内部不再强制输出"目标框"或"车道线"（除非作为辅助监督），它自己学习如何看路。
模仿学习 (Imitation Learning): 让 AI 观看数百万小时的人类老司机驾驶视频，学习人类的行为模式。
数据飞轮：极其依赖高质量的数据规模，代码量极少，参数量极大。
优势：
无损信息：网络可以利用图像中的微小细节（如前车司机的眼神、路边的积水反光）来做决策。
拟人化：开车风格更像人，而不是生硬的机器。

第五阶段：VLA 模型 (Vision-Language-Action)

这是大语言模型（LLM）爆发后，自动驾驶的"终极形态"探索。

这是学术界和 L4 公司正在探索的未来架构。

架构逻辑：大语言模型 (LLM) 赋能。
演进点：
将驾驶视为一种通用的推理任务，而不仅仅是几何计算任务。
引入 LLM 的推理能力来处理长尾场景（Corner Cases）。
特征：
System 1 + System 2:
System 1 (直觉): 用端到端小模型处理 99% 的日常驾驶（如车道保持、跟车），反应快。
System 2 (逻辑): 当遇到复杂情况（如交警手势、事故现场）时，激活 VLA 大模型进行慢思考推理，输出高层决策。
核心理念：将 World Model（世界模型）和 LLM（大语言模型）引入驾驶。不仅要"会开"，还要"理解世界"。
解决了什么问题？
常识推理 (Common Sense): 端到端能学会"红灯停"，但 VLA 能理解"前方有警车拦路，虽然是绿灯但由于交通管制必须停"。
长尾场景：比如路上出现了一只从未见过的怪兽气球，端到端可能会不知所措，VLA 可以根据语义理解这是"气球"，是可以撞过去或绕行的。
技术方案：
利用多模态大模型（如 GPT-4V 类的车端版），输入视频，输出驾驶决策解释和动作。
代表企业：Wayve (英国自动驾驶独角兽), 清华 DriveVLM。

总结对比

阶段	核心驱动	架构特点	优点	缺点	代表方案
规则算法	工程师写代码	感知-预测-规划串行	逻辑可解释，易调试	累积误差，无法处理长尾	Mobileye早期，传统L2
两段式端到端	深度学习+先验结构	特征共享，可微分模块	兼顾性能与解释性	仍有结构限制	UniAD, HydraNet
一段式端到端	视频数据	Sensor IN -> Control OUT	上限极高，拟人化	黑盒，训练极其昂贵	Tesla FSD V12, comma.ai
VLA	通用人工智能 (AGI)	视觉+语言+动作	具备常识推理能力	实时性挑战，算力巨大	Wayve, DriveVLM

演进阶段	核心特征	数据流形式	下游规划	局限性
1. 模块化	人工拆解，串行	几何目标列表 (Object List)	Rules / Optimization	信息丢失，累积误差
2. BEV/多任务	共享感知 Backbone	3D 空间特征 + 几何结果	Rules / Optimization	感知强，规划弱（木桶效应）
3. UniAD/一体化	模块间 Query 交互	稀疏向量 / 特征流	Neural Planner	训练复杂，推理延迟高
4. 端到端	单一黑盒网络	原始视频 -> 控制信号	Implicit (隐式学习)	不可解释，依赖海量数据
5. VLA	引入语言/常识	视频 + 文本提示	LLM Reasoning	算力昂贵，实时性差

Tesla 的技术演进方案

特斯拉是端到端技术的集大成者和坚定推动者，其演进路线极具代表性。

Software 1.0 时代 (Mobileye & Early Autopilot)

特征：传统的 2D 图像识别 + C++ 规则控制。
局限：无法处理复杂的 3D 空间和路口，严重依赖高精地图（虽然特斯拉声称不用，但早期其实有依赖）。

Software 2.0 - HydraNet (FSD Beta V9-V11)

HydraNet (九头蛇网络): 引入巨大的 RegNet 主干网络，共享视觉特征，然后分出不同的"头"负责车道线、车辆、红绿灯检测。
BEV + Transformer: 2021年引入，将 8 个摄像头的图像拼接到 3D 鸟瞰空间（Vector Space）。
Occupancy Network (占用网络): 2022年引入，不识别物体是什么，只识别体积和运动，解决了通用障碍物问题。
局限：虽然感知已经非常强（全是神经网络），但规划控制（Planner）仍然是 30 万行 C++ 代码写死的规则。这导致车开起来像个机器人，生硬且处理不了复杂博弈。

FSD V12 (端到端大爆发)

核心变革：删除了 30 万行 C++ 控制代码，替换为一个单一的神经网络。
技术原理：
输入： 8 个摄像头的视频流。
输出：直接输出车辆控制指令（方向盘转角、踏板深度）。
训练：使用数千万个优质的人类驾驶片段（Video Clips）进行视频预训练 (Video Pre-training)。
本质：它不再通过写代码来告诉车怎么开，而是通过喂视频数据，让神经网络自己提取特征、自己学会规划。
效果：所谓的"上帝之手"。车辆学会了礼让行人、在泥坑前减速、丝滑变道，表现出极强的拟人特性。