自动驾驶数据驱动规控进化之路

阶段一:纯粹的行为克隆(Behavior Cloning)------ "看图打方向盘" (2016)

最早的数据驱动尝试极其简单粗暴:把人类驾驶时的摄像头画面作为 X,把方向盘转角作为 Y,用一个简单的卷积神经网络(CNN)做有监督回归训练。

  • 痛点(协变量偏移 Covariate Shift): 这种模型只会顺风局。一旦在现实中车子稍微偏离了车道线中心(由于风偏或小误差),模型就会看到一个"训练集中从未见过的画面",然后彻底宕机,不知如何"救车"。

  • 标志性工作/依据:

    • PilotNet (NVIDIA, 2016): 端到端自动驾驶的开山之作。英伟达用一个 9 层的 CNN,成功让一辆车在相对简单的乡村道路上保持在车道内行驶。(参考论文:End to End Learning for Self-Driving Cars, arXiv 2016

阶段二:鲁棒模仿学习与数据增强 ------ "故意犯错,教机器救车" (2018-2021)

为了解决"偏离轨迹就不会开"的问题,工程师开始在数据层面做文章。

  • 核心逻辑: 在给人类轨迹打标签时,故意在模拟器中生成大量"偏离中心、压线"的劣质合成数据,然后强制神经网络学习"如何打方向盘回到正确路线上"。

  • 标志性工作/依据:

    • ChauffeurNet (Waymo, 2018): Waymo 的经典之作。它证明了单纯模仿好司机是不够的,必须合成大量"坏数据",强迫网络学习从恶劣状态中恢复。(参考论文:ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst, RSS 2019

    • Urban Driver (Waymo, 2021): 不再输入图片,而是基于矢量化的高精地图(PointNet 架构)进行端到端的轨迹闭环学习,大大提升了在复杂城市路口的表现。(参考论文:Urban Driver: Learning to Drive from History and Local Graph, CoRL 2021

阶段三:打破"因果混淆"的离线强化学习 (2020-2023)

模仿学习有一个致命缺陷叫因果混淆(Causal Confusion)。比如:前车刹车灯亮了,老司机踩了刹车。模型在学习时,可能会误以为"因为我的脚踩了刹车板,所以前车的尾灯才亮了"。

  • 核心逻辑: 引入离线强化学习(Offline RL)。不再仅仅是盲目模仿(监督学习),而是利用强化学习的奖励机制(Reward),从静态数据集中主动去寻找"即使人类司机没这么做,但理论上得分更高、更安全的轨迹"。

  • 标志性工作/依据:

    • CQL 在自动驾驶中的应用 (UC Berkeley & 行业前沿, 2020+): Conservative Q-Learning (CQL) 等算法被广泛引入。它通过在价值函数计算中惩罚"未见过的危险状态",让 AI 在纯离线数据中也能学到极为稳健的规控策略,解决了直接用 RL 训练实车不安全的痛点。

阶段四:Transformer 大一统与"无图化"端到端 (2023-2024)

随着 BEV(鸟瞰图)和 Transformer 的成熟,数据驱动规控进入了大一统时代。各种独立的网络被融合成一个巨无霸,并且开始彻底抛弃昂贵的高精地图。

  • 核心逻辑: 原始传感器数据输入,网络内部自动生成动态/静态元素的 Token(词元),并通过自注意力机制直接输出自车的规划轨迹。

  • 标志性工作/依据:

    • VAD (Vectorized Autonomous Driving, ICCV 2023): 提出了一种完全矢量化的无图端到端框架。它直接从多视角图像中隐式学习车道拓扑,极大地提高了规控在没有高精地图路段的稳定性和运行速度。

    • UniAD (CVPR 2023 Best Paper, 上汽/上海AI实验室): 将追踪、建图、轨迹预测和自车规划全部放入一个 Transformer 管道中联合优化,是目前学术界最标杆的端到端范式。

    • Tesla FSD v12 (2024): 工业界真正实现了"光子输入,控制输出(Photon-in, Control-out)"。马斯克彻底干掉了超过 30 万行规控 C++ 代码,全靠特斯拉车队海量的视频片段驱动一个巨大的神经网络输出控制指令。

阶段五:生成式"世界模型"与大语言模型 (VLA) 的降维打击 (2024-2026)

纯数据驱动的黑盒模型缺乏"物理常识"和"逻辑推理"。最新的趋势是给规控装上 LLM 的大脑。

  • 核心逻辑:

    1. 世界模型: 让 AI 学习物理规律,在脑海的"虚拟世界"里预演自己的规控轨迹是否会撞车。

    2. VLM/LLM: 让大模型充当"教练",面对长尾罕见场景(如路边有猪、交警挥手),用人类文字推理出正确的规控意图。

  • 标志性工作/依据:

    • GAIA-1 & Lingo-2 (Wayve, 2023/2024): 前者是 90 亿参数的世界模型,能逼真预测各种罕见规控后果;后者是能一边控制实车、一边用英语解释自己"为什么要这么踩刹车"的闭环 VLA 大模型。

    • DriveVLM-Dual (清华 & 理想, 2024): 一种混合架构。当路况正常时,底层的端到端小模型快速输出规控指令;当遇到奇怪的障碍物时,VLM 大模型立刻介入进行"慢思考"逻辑推理,指导底层修改规控轨迹。

    • DriveDPO (NeurIPS 2025): 将大语言模型界最火的偏好对齐(DPO)直接用于自动驾驶轨迹规划,直接让模型对比"好人类"和"坏人类"的开车区别,而不需要复杂的强化学习奖励设计。

从纯粹的模仿,到强化学习的寻优,再到大语言模型的推理,数据驱动正在彻底重塑汽车的"运动神经"。

相关推荐
IT_陈寒1 小时前
Redis内存爆了,原来我漏掉了这个致命配置
前端·人工智能·后端
用户3521802454753 小时前
🎆从 Prompt 到 Skill:让 Spring AI Agent 学会"装新技能"
人工智能·spring boot·ai编程
米小虾3 小时前
手把手教你搭建第一个生产级AI Agent:从选型到实战的完整指南
人工智能·agent
任沫3 小时前
Agent之Function Call
javascript·人工智能·go
米小虾4 小时前
2026年AI Agent全面爆发:从开源生态到企业级应用的进化之路
人工智能·agent
用户6919026813394 小时前
Vibe Coding 开发项目的基本范式
人工智能·设计模式·代码规范
To_OC4 小时前
别再跟 AI 死磕 prompt 了,我写了个 Loop 让它自己改到满意为止
人工智能·aigc·agent
血小溅4 小时前
三大 AI 编码框架深度对比:GSD vs OpenSpec vs Superpowers
人工智能·后端
武子康8 小时前
调查研究-186 LangChain 和 LangGraph 的区别:从快速构建 Agent 到生产级工作流编排
人工智能·langchain·llm
武子康8 小时前
调查研究-185 CodeGraph 调研:给 AI 编程 Agent 一张代码库地图,少一点反复 grep(2026)
人工智能·openai·claude