自动驾驶数据驱动规控进化之路

最早的数据驱动尝试极其简单粗暴：把人类驾驶时的摄像头画面作为 $X$ ，把方向盘转角作为 $Y$ ，用一个简单的卷积神经网络（CNN）做有监督回归训练。

痛点（协变量偏移 Covariate Shift）： 这种模型只会顺风局。一旦在现实中车子稍微偏离了车道线中心（由于风偏或小误差），模型就会看到一个"训练集中从未见过的画面"，然后彻底宕机，不知如何"救车"。
标志性工作/依据：
- PilotNet (NVIDIA, 2016)： 端到端自动驾驶的开山之作。英伟达用一个 9 层的 CNN，成功让一辆车在相对简单的乡村道路上保持在车道内行驶。（参考论文：End to End Learning for Self-Driving Cars, arXiv 2016）

为了解决"偏离轨迹就不会开"的问题，工程师开始在数据层面做文章。

核心逻辑： 在给人类轨迹打标签时，故意在模拟器中生成大量"偏离中心、压线"的劣质合成数据，然后强制神经网络学习"如何打方向盘回到正确路线上"。
标志性工作/依据：
- ChauffeurNet (Waymo, 2018)： Waymo 的经典之作。它证明了单纯模仿好司机是不够的，必须合成大量"坏数据"，强迫网络学习从恶劣状态中恢复。（参考论文：ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst, RSS 2019）
- Urban Driver (Waymo, 2021)： 不再输入图片，而是基于矢量化的高精地图（PointNet 架构）进行端到端的轨迹闭环学习，大大提升了在复杂城市路口的表现。（参考论文：Urban Driver: Learning to Drive from History and Local Graph, CoRL 2021）

模仿学习有一个致命缺陷叫因果混淆（Causal Confusion）。比如：前车刹车灯亮了，老司机踩了刹车。模型在学习时，可能会误以为"因为我的脚踩了刹车板，所以前车的尾灯才亮了"。

核心逻辑： 引入离线强化学习（Offline RL）。不再仅仅是盲目模仿（监督学习），而是利用强化学习的奖励机制（Reward），从静态数据集中主动去寻找"即使人类司机没这么做，但理论上得分更高、更安全的轨迹"。
标志性工作/依据：
- CQL 在自动驾驶中的应用 (UC Berkeley & 行业前沿, 2020+)： Conservative Q-Learning (CQL) 等算法被广泛引入。它通过在价值函数计算中惩罚"未见过的危险状态"，让 AI 在纯离线数据中也能学到极为稳健的规控策略，解决了直接用 RL 训练实车不安全的痛点。

随着 BEV（鸟瞰图）和 Transformer 的成熟，数据驱动规控进入了大一统时代。各种独立的网络被融合成一个巨无霸，并且开始彻底抛弃昂贵的高精地图。

核心逻辑： 原始传感器数据输入，网络内部自动生成动态/静态元素的 Token（词元），并通过自注意力机制直接输出自车的规划轨迹。
标志性工作/依据：
- VAD (Vectorized Autonomous Driving, ICCV 2023)： 提出了一种完全矢量化的无图端到端框架。它直接从多视角图像中隐式学习车道拓扑，极大地提高了规控在没有高精地图路段的稳定性和运行速度。
- UniAD (CVPR 2023 Best Paper, 上汽/上海AI实验室)： 将追踪、建图、轨迹预测和自车规划全部放入一个 Transformer 管道中联合优化，是目前学术界最标杆的端到端范式。
- Tesla FSD v12 (2024)： 工业界真正实现了"光子输入，控制输出（Photon-in, Control-out）"。马斯克彻底干掉了超过 30 万行规控 C++ 代码，全靠特斯拉车队海量的视频片段驱动一个巨大的神经网络输出控制指令。

纯数据驱动的黑盒模型缺乏"物理常识"和"逻辑推理"。最新的趋势是给规控装上 LLM 的大脑。

核心逻辑：
1. 世界模型： 让 AI 学习物理规律，在脑海的"虚拟世界"里预演自己的规控轨迹是否会撞车。
2. VLM/LLM： 让大模型充当"教练"，面对长尾罕见场景（如路边有猪、交警挥手），用人类文字推理出正确的规控意图。
标志性工作/依据：
- GAIA-1 & Lingo-2 (Wayve, 2023/2024)： 前者是 90 亿参数的世界模型，能逼真预测各种罕见规控后果；后者是能一边控制实车、一边用英语解释自己"为什么要这么踩刹车"的闭环 VLA 大模型。
- DriveVLM-Dual (清华 & 理想, 2024)： 一种混合架构。当路况正常时，底层的端到端小模型快速输出规控指令；当遇到奇怪的障碍物时，VLM 大模型立刻介入进行"慢思考"逻辑推理，指导底层修改规控轨迹。
- DriveDPO (NeurIPS 2025)： 将大语言模型界最火的偏好对齐（DPO）直接用于自动驾驶轨迹规划，直接让模型对比"好人类"和"坏人类"的开车区别，而不需要复杂的强化学习奖励设计。

从纯粹的模仿，到强化学习的寻优，再到大语言模型的推理，数据驱动正在彻底重塑汽车的"运动神经"。