自动驾驶与大模型相关VLA4AD

基本概念

VLA4AD

**VLA4AD 是"Vision-Language-Action for Autonomous Driving"(视觉-语言-行动自动驾驶)的缩写,它代表一种将大模型应用于自动驾驶的新范式:让车辆不仅能"看懂"路况,还能"听懂"语言指令,并直接做出驾驶动作。**它由清华大学、麦吉尔大学、威斯康星大学等团队在 2025 年提出,被视为自动驾驶与多模态大模型结合的前沿方向。

VLA4AD 的核心理念

  • 视觉模块:通过摄像头、激光雷达等传感器获取环境信息,类似人类的"眼睛"。

  • 语言模块:基于大型语言模型(LLM),理解自然语言指令,如"前面有救护车,让一让"。

  • 行动模块:将视觉和语言信息转化为驾驶动作,包括方向盘转角、油门和刹车控制。

这种架构打破了传统的模块化设计(感知→预测→规划→控制),而是通过一个统一的模型实现"看、说、做"的闭环。

Vision-Action(VA)

直接视觉到行动,关键缺点: 黑盒(不可解释); 对分布变化敏感;无法理解语言或指令

VLA

随着大模型(LLM/VLM)发展,引入语言能力: 核心升级:视觉(看) + 语言(理解/推理) + 行动(驾驶)

VLM

VLM 通常指的是 Vision-Language Model(视觉-语言模型) 。它是把视觉信息(图像、视频、点云)和语言信息(文本、指令、描述)统一到一个模型里进行理解和推理的框架。

VLA的统一框架

典型 VLA 模型抽象为:

最终输出结果a_t 为t时刻的action

  • x:多模态输入(视觉+语言+车辆状态)
    • 传感器输入:前视/环视摄像头、LiDAR、雷达等;
    • 中间表征:如鸟瞰图(BEV)特征、占据栅格;
    • 语言指令:导航指令、规则说明、问答式提示等文本;
    • 车辆状态:速度、加速度、转向角等;
  • F:视觉-语言骨干 (VLM/LLM)
    • 视觉编码器(如 ViT)将图像编码为特征;
    • 语言解码器/LLM 接收视觉特征与文本 token,通过"桥接网络"完成模态对齐;
    • 输出可用于推理和规划的多模态表示;
  • H:动作预测头 , 负责将多模态特征转成具体动作,形式包括:
    • 语言输出:如"保持车道"、"左转并减速"等;
    • 回归式数值输出:如未来轨迹点、控制量(油门/方向盘);
    • 轨迹候选选择或轨迹生成。

VLA两大主范式

End-to-End VLA(端到端VLA)

  • 思想: 一个模型直接完成: 图像 → 推理 → 行动
  • 特点: 强统一性 高表达能力 类似"驾驶大脑"
  • 问题: 难训练 安全性难保证 实时性压力大

Dual-System VLA(双系统VLA)

  • 思想(类人脑结构) 分成两部分:
    • 慢系统(LLM/VLM): 推理、规划 类比人类思考
    • 快系统(Planner/Controller): 实时执行 类比肌肉反应
  • 优点 更安全 更可控 易工程化 中间接口怎么设计

VLA动作生成方式

  1. 文本动作生成

    • 输出是自然语言描述的动作,例如"向左转"、"减速"。

    • 优点:可解释性强,便于人机交互。

    • 技术:基于 GPT 系列或 DriveLM 等语言模型。

  2. 数值动作生成

    • 输出是连续控制量,如方向盘角度、油门百分比。

    • 优点:直接可用于控制车辆。

    • 技术:强化学习、回归模型、MoE(Mixture of Experts)。

  3. 显式动作指导

    • 模型在生成动作时,明确给出推理过程或中间解释

    • 优点:增强透明度,便于调试和安全验证。

    • 技术:链式推理(CoT)、多模态融合。

  4. 隐式迁移

    • 模型通过预训练或跨任务迁移,隐式学会驾驶策略。

    • 优点:泛化能力强,能适应新场景。

    • 技术:VLM-AD、ReCoDrive 等跨模态迁移方法。

关键点:

  • 多样化输出形式:既可以是语言描述,也可以是数值控制,取决于应用场景。

  • 可解释性与直接性权衡:文本更易解释,数值更直接控制。

  • 研究趋势 :从单一模态到多模态,从显式推理到隐式迁移,逐步提升泛化与安全性。

  • 应用启示:未来自动驾驶可能结合两种方式------既能用语言解释决策,又能输出精确数值控制。

文本动作(Textual Action)

  • 元动作(Meta-Actions): "减速", "左转", "跟随前车"
  • 文本化轨迹点(Trajectory Waypoints via Text): 再转成控制信号
  • 优点: 可解释 可对齐人类指令
  • 缺点: 精度有限

元动作示例:

文本化轨迹点示例:

数值动作(Numerical Action)

  • 额外动作head:
    • 主干网络加head回归方式,输出轨迹或控制信号:
    • steering_angle, throttle, brake \] = \[0.12, 0.25, 0.00

  • 额外动作token:
    • 把各种轨迹或控制信号离散化一个个标准的动作token,
    • "[ WP_10_35, WP_13_34, WP_16_33, TURN_LEFT, SPEED_20 ]"
  • 优点:精确控制
  • 缺点:不可解释

显式引导(Explicit)

  • VLM 直接输出高层动作或航迹点,由快系统进一步细化
  • 元动作引导: "减速","变道","左转"
  • 轨迹点监督: 粗糙的轨迹航点
  • 慢系统 直接告诉快系统应该做什么, 更接近传统规划系统

隐式引导(Implicit)

VLM 不在推理时输出行动,而是在训练阶段当"老师/辅助模块",

  • 把自己的推理能力"压进"一个小而快的 E2E 模型里。
  • 知识蒸馏 特征来自学生 E2E 模型自身的 latent 特征
  • 多模态特征融合 一部分特征实时算,一部分特征VLM 提前算

目标:

  • 把 VLM 的"懂语义、会推理"迁移给小模型
  • 推理阶段只跑小模型,满足车载部署要求
  • 保留 VLM 带来的可解释性和稳健性(相对显式方案会弱一些)

对比:

  • 显式引导:VLM在推理时直接输出动作并解释,可解释性强,但算力消耗大。

  • 隐式引导:VLM只在训练时做"老师",推理时不参与,解释性较弱一些,但仍比纯黑箱模型好。

  • 这是一种折中方案:牺牲部分解释性,换取部署吸纳。

小模型会不会输出解释?

  • 隐式引导模式下,推理阶段只是运行小模型,其主要目标是生成驾驶动作(数值控制)。

  • 小模型通常只输出动作,是否输出解释,取决于训练时有没有把"解释头"(Text Head )也给予小模型

  • 总体:

    • 纯动作添加 →小模型只输出动作,不解释。

    • 动作+解释→小模型可以同时计算食谱 →小模型可以同时输出能力表格和简单解释,但解释会比显式引导弱。

  • 教师模型可以输出更详细的推理过程或解释,小模型在训练时通过修改这些输出,逐渐学会在没有明显式推理链的情况下也能得出正确的答案。

能力迁移:懂推理→会推理

  • 这种方法叫做知识增加(知识蒸馏)推理增加(推理蒸馏)

  • 大模型的"理智推理"能力可以通过:

    • 显着式增加 :直接把推理链作为训练数据的一部分。

    • 隐式补充:只给小模型最终答案,但训练过程中利用教师模型的推理来调整梯度。

  • 结果是,小模型在推理时可能不会输出完整的解释,但它的内部表示已经学会了某种"推理模式",因此能在更少的计算资源下做出合理的推断。

关键数据集与基准介绍

nuScenes

  • 领域:真实世界

  • 模态:RGB / LiDAR

  • 规模:约1k场景

  • 核心任务:检测、问答

  • 特点 :提供多模式采集数据,适合研究自动驾驶场景下的多任务学习。

Waymo开放数据集

  • 领域:真实世界

  • 模态:RGB / LiDAR

  • 规模:1000万+帧

  • 核心任务:3D检测、跟踪

  • 特点:数据量极大,覆盖多种驾驶环境,是研究大规模3D采集与跟踪的基准。

BDD-X

  • 领域:真实世界

  • 模式:RGB视频

  • 规模:约100k视频

  • 核心任务:描述、问答

  • 特点:强调语言与结合,支持对驾驶场景的自然语言解释与交互。

NAVSIM(仿真闭环)

  • 领域:仿真环境

  • 模态:RGB / LiDAR

  • 规模:规模

  • 核心任务:仿真闭环

  • 特点:提供可控的仿真环境,适合闭环决策研究与模拟训练。

Talk2Car

  • 领域:真实驾驶

  • 模式:RGB视频

  • 核心任务:指令紧随

  • 特点:突出语言指令与驾驶行为的结合,支持人机交互研究。

相关推荐
Maxwell的猫2 小时前
激光雷达:给自动驾驶装上“火眼金睛”的终极传感器
自动驾驶·汽车·激光雷达·辅助驾驶
xixixi777772 小时前
Gartner 2026核心趋势:前置式主动安全(PCS)成为安全战略新范式,量子安全+国密算法构筑政企纵深防御底座
网络·人工智能·安全·web安全·ai·量子计算
Rubin智造社2 小时前
04月20日AI每日参考:华为AI眼镜今日发布,Meta裁员8000人押注AI文件格式
人工智能·claude code·ai硬件·华为ai眼镜·meta裁员·cerebras ipo·字节跳动seedance
带娃的IT创业者2 小时前
深度解析 Qwen3.6-35B-A3B:重塑 AI 编程代理的开源新标杆
人工智能·python·ai·开源·大模型·qwen·编程代理
亦暖筑序2 小时前
让 AI 客服真能用的 3 个模块:情绪感知 + 意图识别 + Agent 工具链
java·人工智能·后端
实在智能RPA2 小时前
内容运营自动化AI工具选型指南:2026企业级智能内容工程实践全解析
人工智能·ai·自动化·媒体
汀、人工智能2 小时前
AI Compass前沿速览:聚焦 HappyOyster、Qwen3.6-35B-A3B 与 Claude Opus 4.7
人工智能
星爷AG I2 小时前
19-12 语篇理解(AGI基础理论)
人工智能·agi
dc_young2 小时前
【具身任务规划】REVER 与 RoboFarseer:用“可验证奖励”把VLM训练成机器人闭环长任务规划器
人工智能·语言模型·机器人