自动驾驶与大模型相关VLA4AD

基本概念

VLA4AD

**VLA4AD 是"Vision-Language-Action for Autonomous Driving"（视觉-语言-行动自动驾驶）的缩写，它代表一种将大模型应用于自动驾驶的新范式：让车辆不仅能"看懂"路况，还能"听懂"语言指令，并直接做出驾驶动作。**它由清华大学、麦吉尔大学、威斯康星大学等团队在 2025 年提出，被视为自动驾驶与多模态大模型结合的前沿方向。

VLA4AD 的核心理念

视觉模块：通过摄像头、激光雷达等传感器获取环境信息，类似人类的"眼睛"。
语言模块：基于大型语言模型（LLM），理解自然语言指令，如"前面有救护车，让一让"。
行动模块：将视觉和语言信息转化为驾驶动作，包括方向盘转角、油门和刹车控制。

这种架构打破了传统的模块化设计（感知→预测→规划→控制），而是通过一个统一的模型实现"看、说、做"的闭环。

Vision-Action（VA）

直接视觉到行动，关键缺点：黑盒（不可解释）；对分布变化敏感；无法理解语言或指令

VLA

随着大模型（LLM/VLM）发展，引入语言能力：核心升级：视觉（看） + 语言（理解/推理） + 行动（驾驶）

VLM

VLM 通常指的是 Vision-Language Model（视觉-语言模型） 。它是把视觉信息（图像、视频、点云）和语言信息（文本、指令、描述）统一到一个模型里进行理解和推理的框架。

VLA的统一框架

典型 VLA 模型抽象为：

最终输出结果a_t 为t时刻的action

x：多模态输入（视觉+语言+车辆状态）
- 传感器输入：前视/环视摄像头、LiDAR、雷达等；
- 中间表征：如鸟瞰图（BEV）特征、占据栅格；
- 语言指令：导航指令、规则说明、问答式提示等文本；
- 车辆状态：速度、加速度、转向角等;
F：视觉-语言骨干 （VLM/LLM）
- 视觉编码器（如 ViT）将图像编码为特征；
- 语言解码器/LLM 接收视觉特征与文本 token，通过"桥接网络"完成模态对齐；
- 输出可用于推理和规划的多模态表示；
H：动作预测头 ，负责将多模态特征转成具体动作，形式包括：
- 语言输出：如"保持车道"、"左转并减速"等；
- 回归式数值输出：如未来轨迹点、控制量（油门/方向盘）；
- 轨迹候选选择或轨迹生成。

VLA两大主范式

End-to-End VLA（端到端VLA）

思想：一个模型直接完成：图像 → 推理 → 行动
特点：强统一性高表达能力类似"驾驶大脑"
问题：难训练安全性难保证实时性压力大

Dual-System VLA（双系统VLA）

思想（类人脑结构）分成两部分：
- 慢系统（LLM/VLM）: 推理、规划类比人类思考
- 快系统（Planner/Controller）: 实时执行类比肌肉反应
优点更安全更可控易工程化中间接口怎么设计

VLA动作生成方式

文本动作生成
- 输出是自然语言描述的动作，例如"向左转"、"减速"。
- 优点：可解释性强，便于人机交互。
- 技术：基于 GPT 系列或 DriveLM 等语言模型。
数值动作生成
- 输出是连续控制量，如方向盘角度、油门百分比。
- 优点：直接可用于控制车辆。
- 技术：强化学习、回归模型、MoE（Mixture of Experts）。
显式动作指导
- 模型在生成动作时，明确给出推理过程或中间解释。
- 优点：增强透明度，便于调试和安全验证。
- 技术：链式推理（CoT）、多模态融合。
隐式迁移
- 模型通过预训练或跨任务迁移，隐式学会驾驶策略。
- 优点：泛化能力强，能适应新场景。
- 技术：VLM-AD、ReCoDrive 等跨模态迁移方法。

关键点：

多样化输出形式：既可以是语言描述，也可以是数值控制，取决于应用场景。
可解释性与直接性权衡：文本更易解释，数值更直接控制。
研究趋势 ：从单一模态到多模态，从显式推理到隐式迁移，逐步提升泛化与安全性。
应用启示：未来自动驾驶可能结合两种方式------既能用语言解释决策，又能输出精确数值控制。

文本动作（Textual Action）

元动作（Meta-Actions）： "减速"， "左转"， "跟随前车"
文本化轨迹点（Trajectory Waypoints via Text）：再转成控制信号
优点：可解释可对齐人类指令
缺点：精度有限

元动作示例：

文本化轨迹点示例：

数值动作（Numerical Action）

额外动作head：
- 主干网络加head回归方式，输出轨迹或控制信号:
- $steering_angle, throttle, brake \] = \[0.12, 0.25, 0.00$
额外动作token：
- 把各种轨迹或控制信号离散化一个个标准的动作token，
- " $WP_10_35, WP_13_34, WP_16_33, TURN_LEFT, SPEED_20$ "
优点：精确控制
缺点：不可解释

显式引导（Explicit）

VLM 直接输出高层动作或航迹点，由快系统进一步细化
元动作引导： "减速"，"变道"，"左转"
轨迹点监督：粗糙的轨迹航点
慢系统直接告诉快系统应该做什么，更接近传统规划系统

隐式引导（Implicit）

VLM 不在推理时输出行动，而是在训练阶段当"老师/辅助模块"，

把自己的推理能力"压进"一个小而快的 E2E 模型里。
知识蒸馏特征来自学生 E2E 模型自身的 latent 特征
多模态特征融合一部分特征实时算，一部分特征VLM 提前算

目标：

把 VLM 的"懂语义、会推理"迁移给小模型
推理阶段只跑小模型，满足车载部署要求
保留 VLM 带来的可解释性和稳健性（相对显式方案会弱一些）

对比：

显式引导：VLM在推理时直接输出动作并解释，可解释性强，但算力消耗大。
隐式引导：VLM只在训练时做"老师"，推理时不参与，解释性较弱一些，但仍比纯黑箱模型好。
这是一种折中方案：牺牲部分解释性，换取部署吸纳。

小模型会不会输出解释？

在隐式引导模式下，推理阶段只是运行小模型，其主要目标是生成驾驶动作（数值控制）。
小模型通常只输出动作，是否输出解释，取决于训练时有没有把"解释头"（Text Head ）也给予小模型。
总体：
- 纯动作添加 →小模型只输出动作，不解释。
- 动作+解释→小模型可以同时计算食谱 →小模型可以同时输出能力表格和简单解释，但解释会比显式引导弱。
教师模型可以输出更详细的推理过程或解释，小模型在训练时通过修改这些输出，逐渐学会在没有明显式推理链的情况下也能得出正确的答案。

能力迁移：懂推理→会推理

这种方法叫做知识增加（知识蒸馏） 或推理增加（推理蒸馏）。
大模型的"理智推理"能力可以通过：
- 显着式增加 ：直接把推理链作为训练数据的一部分。
- 隐式补充：只给小模型最终答案，但训练过程中利用教师模型的推理来调整梯度。
结果是，小模型在推理时可能不会输出完整的解释，但它的内部表示已经学会了某种"推理模式"，因此能在更少的计算资源下做出合理的推断。

关键数据集与基准介绍

nuScenes

领域：真实世界
模态：RGB / LiDAR
规模：约1k场景
核心任务：检测、问答
特点：提供多模式采集数据，适合研究自动驾驶场景下的多任务学习。

Waymo开放数据集

领域：真实世界
模态：RGB / LiDAR
规模：1000万+帧
核心任务：3D检测、跟踪
特点：数据量极大，覆盖多种驾驶环境，是研究大规模3D采集与跟踪的基准。

BDD-X

领域：真实世界
模式：RGB视频
规模：约100k视频
核心任务：描述、问答
特点：强调语言与结合，支持对驾驶场景的自然语言解释与交互。

NAVSIM(仿真闭环)

领域：仿真环境
模态：RGB / LiDAR
规模：规模
核心任务：仿真闭环
特点：提供可控的仿真环境，适合闭环决策研究与模拟训练。

Talk2Car

领域：真实驾驶
模式：RGB视频
核心任务：指令紧随
特点：突出语言指令与驾驶行为的结合，支持人机交互研究。