自动驾驶数据驱动规控进化之路

阶段一:纯粹的行为克隆(Behavior Cloning)------ "看图打方向盘" (2016)

最早的数据驱动尝试极其简单粗暴:把人类驾驶时的摄像头画面作为 X,把方向盘转角作为 Y,用一个简单的卷积神经网络(CNN)做有监督回归训练。

  • 痛点(协变量偏移 Covariate Shift): 这种模型只会顺风局。一旦在现实中车子稍微偏离了车道线中心(由于风偏或小误差),模型就会看到一个"训练集中从未见过的画面",然后彻底宕机,不知如何"救车"。

  • 标志性工作/依据:

    • PilotNet (NVIDIA, 2016): 端到端自动驾驶的开山之作。英伟达用一个 9 层的 CNN,成功让一辆车在相对简单的乡村道路上保持在车道内行驶。(参考论文:End to End Learning for Self-Driving Cars, arXiv 2016

阶段二:鲁棒模仿学习与数据增强 ------ "故意犯错,教机器救车" (2018-2021)

为了解决"偏离轨迹就不会开"的问题,工程师开始在数据层面做文章。

  • 核心逻辑: 在给人类轨迹打标签时,故意在模拟器中生成大量"偏离中心、压线"的劣质合成数据,然后强制神经网络学习"如何打方向盘回到正确路线上"。

  • 标志性工作/依据:

    • ChauffeurNet (Waymo, 2018): Waymo 的经典之作。它证明了单纯模仿好司机是不够的,必须合成大量"坏数据",强迫网络学习从恶劣状态中恢复。(参考论文:ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst, RSS 2019

    • Urban Driver (Waymo, 2021): 不再输入图片,而是基于矢量化的高精地图(PointNet 架构)进行端到端的轨迹闭环学习,大大提升了在复杂城市路口的表现。(参考论文:Urban Driver: Learning to Drive from History and Local Graph, CoRL 2021

阶段三:打破"因果混淆"的离线强化学习 (2020-2023)

模仿学习有一个致命缺陷叫因果混淆(Causal Confusion)。比如:前车刹车灯亮了,老司机踩了刹车。模型在学习时,可能会误以为"因为我的脚踩了刹车板,所以前车的尾灯才亮了"。

  • 核心逻辑: 引入离线强化学习(Offline RL)。不再仅仅是盲目模仿(监督学习),而是利用强化学习的奖励机制(Reward),从静态数据集中主动去寻找"即使人类司机没这么做,但理论上得分更高、更安全的轨迹"。

  • 标志性工作/依据:

    • CQL 在自动驾驶中的应用 (UC Berkeley & 行业前沿, 2020+): Conservative Q-Learning (CQL) 等算法被广泛引入。它通过在价值函数计算中惩罚"未见过的危险状态",让 AI 在纯离线数据中也能学到极为稳健的规控策略,解决了直接用 RL 训练实车不安全的痛点。

阶段四:Transformer 大一统与"无图化"端到端 (2023-2024)

随着 BEV(鸟瞰图)和 Transformer 的成熟,数据驱动规控进入了大一统时代。各种独立的网络被融合成一个巨无霸,并且开始彻底抛弃昂贵的高精地图。

  • 核心逻辑: 原始传感器数据输入,网络内部自动生成动态/静态元素的 Token(词元),并通过自注意力机制直接输出自车的规划轨迹。

  • 标志性工作/依据:

    • VAD (Vectorized Autonomous Driving, ICCV 2023): 提出了一种完全矢量化的无图端到端框架。它直接从多视角图像中隐式学习车道拓扑,极大地提高了规控在没有高精地图路段的稳定性和运行速度。

    • UniAD (CVPR 2023 Best Paper, 上汽/上海AI实验室): 将追踪、建图、轨迹预测和自车规划全部放入一个 Transformer 管道中联合优化,是目前学术界最标杆的端到端范式。

    • Tesla FSD v12 (2024): 工业界真正实现了"光子输入,控制输出(Photon-in, Control-out)"。马斯克彻底干掉了超过 30 万行规控 C++ 代码,全靠特斯拉车队海量的视频片段驱动一个巨大的神经网络输出控制指令。

阶段五:生成式"世界模型"与大语言模型 (VLA) 的降维打击 (2024-2026)

纯数据驱动的黑盒模型缺乏"物理常识"和"逻辑推理"。最新的趋势是给规控装上 LLM 的大脑。

  • 核心逻辑:

    1. 世界模型: 让 AI 学习物理规律,在脑海的"虚拟世界"里预演自己的规控轨迹是否会撞车。

    2. VLM/LLM: 让大模型充当"教练",面对长尾罕见场景(如路边有猪、交警挥手),用人类文字推理出正确的规控意图。

  • 标志性工作/依据:

    • GAIA-1 & Lingo-2 (Wayve, 2023/2024): 前者是 90 亿参数的世界模型,能逼真预测各种罕见规控后果;后者是能一边控制实车、一边用英语解释自己"为什么要这么踩刹车"的闭环 VLA 大模型。

    • DriveVLM-Dual (清华 & 理想, 2024): 一种混合架构。当路况正常时,底层的端到端小模型快速输出规控指令;当遇到奇怪的障碍物时,VLM 大模型立刻介入进行"慢思考"逻辑推理,指导底层修改规控轨迹。

    • DriveDPO (NeurIPS 2025): 将大语言模型界最火的偏好对齐(DPO)直接用于自动驾驶轨迹规划,直接让模型对比"好人类"和"坏人类"的开车区别,而不需要复杂的强化学习奖励设计。

从纯粹的模仿,到强化学习的寻优,再到大语言模型的推理,数据驱动正在彻底重塑汽车的"运动神经"。

相关推荐
帅次1 小时前
AI数字营销实战测评:CSDN AI智选主题如何提升技术博客创作效率与质量?
人工智能·深度学习·机器学习·语言模型·自然语言处理·数据挖掘·知识图谱
Maiko Star1 小时前
理解 RAG 的“为什么”与 Spring AI 实战初体验
人工智能·rag·springai
ACP广源盛139246256731 小时前
GSV2231@ACP#三屏扩展旗舰芯片,TRAE SOLO 多任务并行开发核心引擎
运维·网络·人工智能·嵌入式硬件·gpt·电脑·音视频
程序猿乐锅1 小时前
Linux常用命令详解:目录、文件、压缩、编辑与查找
linux·运维·服务器
Shadow(⊙o⊙)1 小时前
库的制作与原理1.0,库打包,协作,目标文件.o、ELF格式。
linux·运维·服务器·开发语言
hai3152475431 小时前
AI工业化编程的黎明:由逻辑压缩到知识融合的范式跃迁
开发语言·人工智能·线性代数·机器学习·数学建模·概率论
如去1 小时前
第十四篇《AI与金融创新:从“传统服务”到“智能生态”的范式重构》
人工智能
数字扫地僧1 小时前
[Dify x EdgeOne]从零到上线:Dify × EdgeOne Pages 全场景 AI 应用部署实战指南
人工智能·腾讯云
救救孩子把1 小时前
80-机器学习与大模型开发数学教程-7-8 正则化与泛化(L1_L2、Dropout 概率解释)
人工智能·机器学习