自动驾驶与大模型相关VLA4AD

基本概念

VLA4AD

**VLA4AD 是"Vision-Language-Action for Autonomous Driving"(视觉-语言-行动自动驾驶)的缩写,它代表一种将大模型应用于自动驾驶的新范式:让车辆不仅能"看懂"路况,还能"听懂"语言指令,并直接做出驾驶动作。**它由清华大学、麦吉尔大学、威斯康星大学等团队在 2025 年提出,被视为自动驾驶与多模态大模型结合的前沿方向。

VLA4AD 的核心理念

  • 视觉模块:通过摄像头、激光雷达等传感器获取环境信息,类似人类的"眼睛"。

  • 语言模块:基于大型语言模型(LLM),理解自然语言指令,如"前面有救护车,让一让"。

  • 行动模块:将视觉和语言信息转化为驾驶动作,包括方向盘转角、油门和刹车控制。

这种架构打破了传统的模块化设计(感知→预测→规划→控制),而是通过一个统一的模型实现"看、说、做"的闭环。

Vision-Action(VA)

直接视觉到行动,关键缺点: 黑盒(不可解释); 对分布变化敏感;无法理解语言或指令

VLA

随着大模型(LLM/VLM)发展,引入语言能力: 核心升级:视觉(看) + 语言(理解/推理) + 行动(驾驶)

VLM

VLM 通常指的是 Vision-Language Model(视觉-语言模型) 。它是把视觉信息(图像、视频、点云)和语言信息(文本、指令、描述)统一到一个模型里进行理解和推理的框架。

VLA的统一框架

典型 VLA 模型抽象为:

最终输出结果a_t 为t时刻的action

  • x:多模态输入(视觉+语言+车辆状态)
    • 传感器输入:前视/环视摄像头、LiDAR、雷达等;
    • 中间表征:如鸟瞰图(BEV)特征、占据栅格;
    • 语言指令:导航指令、规则说明、问答式提示等文本;
    • 车辆状态:速度、加速度、转向角等;
  • F:视觉-语言骨干 (VLM/LLM)
    • 视觉编码器(如 ViT)将图像编码为特征;
    • 语言解码器/LLM 接收视觉特征与文本 token,通过"桥接网络"完成模态对齐;
    • 输出可用于推理和规划的多模态表示;
  • H:动作预测头 , 负责将多模态特征转成具体动作,形式包括:
    • 语言输出:如"保持车道"、"左转并减速"等;
    • 回归式数值输出:如未来轨迹点、控制量(油门/方向盘);
    • 轨迹候选选择或轨迹生成。

VLA两大主范式

End-to-End VLA(端到端VLA)

  • 思想: 一个模型直接完成: 图像 → 推理 → 行动
  • 特点: 强统一性 高表达能力 类似"驾驶大脑"
  • 问题: 难训练 安全性难保证 实时性压力大

Dual-System VLA(双系统VLA)

  • 思想(类人脑结构) 分成两部分:
    • 慢系统(LLM/VLM): 推理、规划 类比人类思考
    • 快系统(Planner/Controller): 实时执行 类比肌肉反应
  • 优点 更安全 更可控 易工程化 中间接口怎么设计

VLA动作生成方式

  1. 文本动作生成

    • 输出是自然语言描述的动作,例如"向左转"、"减速"。

    • 优点:可解释性强,便于人机交互。

    • 技术:基于 GPT 系列或 DriveLM 等语言模型。

  2. 数值动作生成

    • 输出是连续控制量,如方向盘角度、油门百分比。

    • 优点:直接可用于控制车辆。

    • 技术:强化学习、回归模型、MoE(Mixture of Experts)。

  3. 显式动作指导

    • 模型在生成动作时,明确给出推理过程或中间解释

    • 优点:增强透明度,便于调试和安全验证。

    • 技术:链式推理(CoT)、多模态融合。

  4. 隐式迁移

    • 模型通过预训练或跨任务迁移,隐式学会驾驶策略。

    • 优点:泛化能力强,能适应新场景。

    • 技术:VLM-AD、ReCoDrive 等跨模态迁移方法。

关键点:

  • 多样化输出形式:既可以是语言描述,也可以是数值控制,取决于应用场景。

  • 可解释性与直接性权衡:文本更易解释,数值更直接控制。

  • 研究趋势 :从单一模态到多模态,从显式推理到隐式迁移,逐步提升泛化与安全性。

  • 应用启示:未来自动驾驶可能结合两种方式------既能用语言解释决策,又能输出精确数值控制。

文本动作(Textual Action)

  • 元动作(Meta-Actions): "减速", "左转", "跟随前车"
  • 文本化轨迹点(Trajectory Waypoints via Text): 再转成控制信号
  • 优点: 可解释 可对齐人类指令
  • 缺点: 精度有限

元动作示例:

文本化轨迹点示例:

数值动作(Numerical Action)

  • 额外动作head:
    • 主干网络加head回归方式,输出轨迹或控制信号:
    • steering_angle, throttle, brake \] = \[0.12, 0.25, 0.00

  • 额外动作token:
    • 把各种轨迹或控制信号离散化一个个标准的动作token,
    • "[ WP_10_35, WP_13_34, WP_16_33, TURN_LEFT, SPEED_20 ]"
  • 优点:精确控制
  • 缺点:不可解释

显式引导(Explicit)

  • VLM 直接输出高层动作或航迹点,由快系统进一步细化
  • 元动作引导: "减速","变道","左转"
  • 轨迹点监督: 粗糙的轨迹航点
  • 慢系统 直接告诉快系统应该做什么, 更接近传统规划系统

隐式引导(Implicit)

VLM 不在推理时输出行动,而是在训练阶段当"老师/辅助模块",

  • 把自己的推理能力"压进"一个小而快的 E2E 模型里。
  • 知识蒸馏 特征来自学生 E2E 模型自身的 latent 特征
  • 多模态特征融合 一部分特征实时算,一部分特征VLM 提前算

目标:

  • 把 VLM 的"懂语义、会推理"迁移给小模型
  • 推理阶段只跑小模型,满足车载部署要求
  • 保留 VLM 带来的可解释性和稳健性(相对显式方案会弱一些)

对比:

  • 显式引导:VLM在推理时直接输出动作并解释,可解释性强,但算力消耗大。

  • 隐式引导:VLM只在训练时做"老师",推理时不参与,解释性较弱一些,但仍比纯黑箱模型好。

  • 这是一种折中方案:牺牲部分解释性,换取部署吸纳。

小模型会不会输出解释?

  • 隐式引导模式下,推理阶段只是运行小模型,其主要目标是生成驾驶动作(数值控制)。

  • 小模型通常只输出动作,是否输出解释,取决于训练时有没有把"解释头"(Text Head )也给予小模型

  • 总体:

    • 纯动作添加 →小模型只输出动作,不解释。

    • 动作+解释→小模型可以同时计算食谱 →小模型可以同时输出能力表格和简单解释,但解释会比显式引导弱。

  • 教师模型可以输出更详细的推理过程或解释,小模型在训练时通过修改这些输出,逐渐学会在没有明显式推理链的情况下也能得出正确的答案。

能力迁移:懂推理→会推理

  • 这种方法叫做知识增加(知识蒸馏)推理增加(推理蒸馏)

  • 大模型的"理智推理"能力可以通过:

    • 显着式增加 :直接把推理链作为训练数据的一部分。

    • 隐式补充:只给小模型最终答案,但训练过程中利用教师模型的推理来调整梯度。

  • 结果是,小模型在推理时可能不会输出完整的解释,但它的内部表示已经学会了某种"推理模式",因此能在更少的计算资源下做出合理的推断。

关键数据集与基准介绍

nuScenes

  • 领域:真实世界

  • 模态:RGB / LiDAR

  • 规模:约1k场景

  • 核心任务:检测、问答

  • 特点 :提供多模式采集数据,适合研究自动驾驶场景下的多任务学习。

Waymo开放数据集

  • 领域:真实世界

  • 模态:RGB / LiDAR

  • 规模:1000万+帧

  • 核心任务:3D检测、跟踪

  • 特点:数据量极大,覆盖多种驾驶环境,是研究大规模3D采集与跟踪的基准。

BDD-X

  • 领域:真实世界

  • 模式:RGB视频

  • 规模:约100k视频

  • 核心任务:描述、问答

  • 特点:强调语言与结合,支持对驾驶场景的自然语言解释与交互。

NAVSIM(仿真闭环)

  • 领域:仿真环境

  • 模态:RGB / LiDAR

  • 规模:规模

  • 核心任务:仿真闭环

  • 特点:提供可控的仿真环境,适合闭环决策研究与模拟训练。

Talk2Car

  • 领域:真实驾驶

  • 模式:RGB视频

  • 核心任务:指令紧随

  • 特点:突出语言指令与驾驶行为的结合,支持人机交互研究。

相关推荐
飞Link2 分钟前
智能体时代的“紧箍咒”:深度解析 Agent 治理架构与 AI 杀伤开关
人工智能·架构
飞Link8 分钟前
2000 亿砸向算力:字节跳动 AI 基建跨越,后端与运维的“万亿 Token”生死战
运维·人工智能
zhangfeng113321 分钟前
小龙虾 wordbuddy 安装浏览器控制器 agent-browser npm install -g agent-browse
前端·人工智能·npm·node.js
阿里云大数据AI技术21 分钟前
一条 SQL 生成广告:Hologres 如何实现素材生成到投放分析一体化
人工智能·sql
liudanzhengxi29 分钟前
GitSubmodule避坑全攻略
人工智能·新人首发
用户4252108006031 分钟前
Claude Code Linux 服务器部署与配置
人工智能
OJAC11134 分钟前
学过Python却不敢投AI岗,他最后拿下12K offer
人工智能
Bigger34 分钟前
因为看不懂小棉袄的画,我写了个 AI 程序帮我“翻译”她的世界
前端·人工智能·ai编程
CeshirenTester37 分钟前
LangChain的工具调用 vs 原生Skill API:性能差在哪儿?
java·人工智能·langchain
爱问的艾文1 小时前
八周带你手搓AI应用-第二周-让AI更像人-第1天-流式输出改造
人工智能