端到端:
将 感知和规划 合二为一,替代之前基于规则的方法
代表工作: PLUTO: 2023-2024年,第一次打败了规则的planning
PLUTO: Pushing the Limit of Imitation Learning-based Planning for Autonomous
Driving, AI模型在nuPlan首次击败基于规则的planner PDM, PDM:2023nuPlan planning challenge冠军,打败一众AI方案
此前AI方案的弱项
- 不擅长做横向行为建模
- 开环评测与闭环评测结论差异大
- 总学到short-cut,混淆因果
Query-based网络结构
- 对横向、纵向规划单独建模
- 在构建query的过程中将横向、纵向融合,增强模型同时规划横纵向行为的能力
辅助loss
- ·提出一种差分插值辅助loss
- ·引入多项辅助训练任务,且对batch-wise运算友好,便于大规模应用于当代AI模型
数据增强
- 扰动,dropout,insertion
- 用以缩小开环评测与闭环评测的差异
对比学习
- ·与数据增强配合使用,引入对比损失
- ·用以抑制模型学习short-Cut
transformer 是什么 ? 计算机视觉领域,为什么能取代cnn
一、Transformer 是什么
Transformer 是 2017 年由 Google 团队在论文 Attention Is All You Need 中提出的一种基于自注意力机制(Self-Attention) 的深度学习模型架构,最初被设计用于自然语言处理(NLP)任务(如机器翻译)。
它的核心特点和组成如下:
- 核心机制:自注意力机制 自注意力让模型能够直接计算输入序列中任意两个位置的依赖关系,而无需像循环神经网络(RNN)那样按顺序处理数据。例如在翻译句子时,模型可以同时关注 "猫" 和 "抓" 这两个词的关联,效率远高于逐词处理的 RNN。
- 关键组件
- 多头注意力(Multi-Head Attention) :将自注意力拆分为多个并行的 "注意力头",分别捕捉不同维度的依赖关系,提升模型的表征能力。
- 编码器 - 解码器(Encoder-Decoder)结构:编码器负责处理输入序列并生成上下文表征,解码器负责根据编码器的输出生成目标序列(适用于翻译、摘要等生成任务)。
- 位置编码(Positional Encoding):由于 Transformer 没有循环结构,无法感知输入的顺序信息,因此需要手动添加位置编码来标记每个元素的位置。
- 前馈神经网络(FFN):对每个位置的表征进行独立的非线性变换,进一步提取特征。
二、在计算机视觉领域,Transformer 为什么能取代 CNN
CNN(卷积神经网络)曾是计算机视觉的绝对主流,它通过局部卷积核 + 池化操作 提取空间特征,依赖局部感受野 和权重共享实现高效计算。但 Transformer 凭借自身优势,逐渐在多个视觉任务中超越 CNN,核心原因如下:
-
全局上下文建模能力的天然优势
- CNN 的局限:CNN 的感受野是局部且逐步扩大的,需要通过堆叠多层卷积层才能捕捉长距离依赖,对于大尺寸图像或需要全局关联的任务(如目标检测、语义分割),效率和效果都受限。例如在识别 "一只狗追着一辆车" 的场景时,CNN 需要多层卷积才能关联 "狗" 和 "车" 的位置关系。
- Transformer 的优势:基于自注意力机制,Transformer 可以直接捕捉图像中任意两个像素的关联,无需依赖多层堆叠,天然具备全局上下文建模能力。这对于需要理解整体场景的任务(如全景分割、图像描述)至关重要。
-
更强的灵活性和泛化能力
- CNN 的结构依赖固定的卷积核尺寸 和网格状的局部操作,对图像的变形、缩放等变换的适应性较弱,且难以迁移到不同分辨率的输入。
- Transformer 将图像转化为序列数据 (如把图像切分为多个 16×16 的 patch,再将每个 patch 视为一个 "token",类似 NLP 中的单词),这种 "序列化" 处理方式不依赖图像的网格结构,可灵活适配不同分辨率的图像,泛化能力更强。典型代表是 ViT(Vision Transformer),它直接将 Transformer 应用于图像 patch 序列,在 ImageNet 等数据集上达到了超越 CNN 的精度。
-
解决 CNN 的 "长尾问题" 在自动驾驶、医疗影像等复杂视觉任务中,存在大量罕见但关键的场景(如极端天气下的车道线、罕见的病灶)。CNN 由于局部特征提取的局限性,对这些长尾场景的识别能力较弱;而 Transformer 的全局注意力可以更好地利用上下文信息,提升对罕见场景的鲁棒性。
-
多模态任务的天然适配性 视觉任务正越来越多地向多模态融合发展(如自动驾驶中的 "图像 + 激光雷达 + 文本规则" 融合)。Transformer 最初就是为跨模态任务设计的,其架构可以无缝整合图像、文本、点云等不同模态的数据,而 CNN 则需要额外的适配模块才能实现多模态融合。
-
算力提升带来的可行性 Transformer 的自注意力机制计算复杂度为 O(n2)(n 为 token 数量),早期因算力限制无法应用于大尺寸图像。但随着 GPU/TPU 算力的提升,以及稀疏注意力、分层注意力等优化技术的出现,Transformer 的计算效率大幅提升,已经能够处理高分辨率图像。
补充:并非完全取代,而是互补
需要注意的是,Transformer 并没有完全淘汰 CNN,目前主流的视觉模型多为 CNN+Transformer 的混合架构(如 Swin Transformer、ConvNeXt)。这些模型结合了 CNN 的局部特征提取效率和 Transformer 的全局建模能力,在精度和速度上达到了更好的平衡。
MLLM 是什么?
MLLM 是 Multimodal Large Language Model(多模态大语言模型) 的简写,核心是以大语言模型(LLM)为 "大脑",融合文本、图像、音频、视频等多种模态信息,实现跨模态的理解、推理与生成,突破纯文本 LLM 的能力边界。
核心定义与本质
MLLM 是 LLM 的自然扩展,通过模态编码器与跨模态对齐机制,将非文本数据(如图像、语音)转化为与文本兼容的语义表征,在统一空间中融合信息,让模型具备 "看、听、说、想" 的综合智能,更贴合人类多感官认知习惯。
典型架构与关键组件
| 组件 | 核心功能 | 常见实现 |
|---|---|---|
| 基础 LLM | 提供语言理解、推理与生成能力,作为模型 "中枢" | GPT、LLaMA、GLM 等 |
| 模态编码器 | 处理图像、音频等非文本输入,提取高维语义特征 | ViT(视觉)、CNN、语音识别网络 |
| 跨模态投影器 | 将非文本特征映射到 LLM 的语义空间,实现模态对齐 | 线性层、轻量 Transformer |
| 对齐微调模块 | 通过指令微调 / 人类反馈强化学习,适配多模态任务 | 多模态指令数据集、RLHF |
核心能力与价值
- 多模态理解:可完成视觉问答(VQA)、图像描述、视频内容分析、语音转文字并推理等任务。
- 跨模态生成:支持根据文本生成图像 / 视频、根据图像生成故事、语音合成等。
- 复杂推理:结合多模态信息实现因果推断(如分析图像中事件的前因后果)、数学推理(无 OCR 解题)等。
- 泛化与适配:通过上下文学习(M-ICL)快速适配新任务,降低标注成本。
与纯文本 LLM、传统多模态模型的差异
| 维度 | MLLM | 纯文本 LLM | 传统多模态模型 |
|---|---|---|---|
| 处理模态 | 文本 + 图像 / 音频 / 视频等 | 仅文本 | 多模态但无强语言中枢 |
| 推理能力 | 跨模态复杂推理 | 文本推理为主 | 单任务模态转换,推理弱 |
| 任务范围 | 理解 + 生成,覆盖多场景 | 纯文本任务 | 多为单任务(如图像分类) |
| 泛化性 | 强(通过指令微调适配新任务) | 依赖文本指令 | 弱,需重新训练 |
主流代表与应用场景
- 代表模型:GPT-4V、Gemini、LLaVA、MiniGPT-4、InstructBLIP。
- 核心场景:视觉问答、图像 / 视频内容创作、自动驾驶多模态感知、医疗影像 + 报告分析、人机交互(语音 + 视觉)等。
关键局限
- 模态不平衡:常存在 "语言强、视觉弱",对细粒度视觉细节(如纹理、小物体)理解不足。
- 计算成本高:多模态特征处理与对齐增加推理开销,需算力优化。
- 对齐难度大:跨模态语义一致性难保证,易出现 "图文不符" 等生成错误。
世界模型是什么?
世界模型(World Model)是 AI 系统内部构建的、用于模拟、理解并预测外部环境动态规律的计算模型,核心是让智能体像人类 "心智模拟" 那样,通过内部仿真做决策与规划,无需在真实环境反复试错。其概念源于认知科学对人类心智表征的模拟,2018 年 David Ha 与 Jürgen Schmidhuber 的《World Models》论文奠定了强化学习领域的应用范式。
核心定义与本质
世界模型并非复刻真实世界,而是对环境的抽象化、结构化内部表征,聚焦实体、因果、物理规则与动态变化,核心实现 "感知→建模→预测→行动" 的闭环,帮助 AI 在潜在空间做 "虚拟实验",评估动作后果并优化策略。
典型架构与核心组件
| 组件 | 核心功能 | 常见实现 |
|---|---|---|
| 表征模型(编码器) | 将图像、点云、文本等高维原始数据压缩为低维抽象潜在表征,提取核心信息(如位置、速度、类型) | CNN、ViT、多模态编码器 |
| 预测 / 动力学模型 | 基于当前状态与动作,预测下一状态的潜在表征,学习环境动力学(物理规则、因果关系) | Transformer、RNN、自回归模型 |
| 控制器 / 策略网络 | 利用表征与预测结果输出最优动作,完成决策规划 | 强化学习策略网络、MLLM 决策模块 |
| 奖励 / 评估模型(可选) | 评估动作收益,辅助策略优化 | 价值网络、对比学习模块 |
核心能力与关键价值
- 全局与因果理解:突破局部感知局限,捕捉实体间长距离依赖与因果关系(如 "推球会滚动"),适配复杂场景(如自动驾驶、机器人操作)。
- 未来状态预测:基于当前观测与动作,推演多步未来状态(如视频生成、轨迹预测),典型如 Sora 对物理规律的内化与动态场景生成。
- 反事实推理:支持 "如果做 A 会怎样" 的假设性模拟,在内部试错优化策略,大幅降低真实环境训练成本。
- 多模态融合:无缝整合图像、文本、点云等多源数据,适配自动驾驶、人机交互等多模态任务。
与传统模型的核心差异
| 维度 | 世界模型 | 传统感知 / 决策模型 |
|---|---|---|
| 建模范围 | 全局动态与因果规则 | 局部特征或单步决策 |
| 学习方式 | 自监督 / 多任务联合学习,构建内部模拟器 | 监督学习 / 单任务训练,依赖标注 |
| 推理能力 | 支持长时预测与反事实推理 | 多为单步或短序列输出 |
| 泛化性 | 适配不同分辨率、场景与任务,迁移能力强 | 依赖特定任务设定,泛化受限 |
主流应用场景
- 强化学习:智能体在虚拟环境试错,加速策略收敛(如游戏 AI、机器人操控)。
- 计算机视觉:视频生成(如 Sora)、目标轨迹预测、语义分割与全景理解。
- 自动驾驶:融合多模态数据预测交通参与者行为,优化路径规划与决策安全。
- 多模态交互:结合 MLLM 实现 "语言 + 视觉 + 动作" 的统一理解与生成,支撑 VLA(视觉 - 语言 - 动作)模型。
VLA 是什么?
VLA 是 Vision - Language - Action Model(视觉 - 语言 - 动作模型) 的缩写,核心是以大语言模型(LLM)为中枢,将视觉感知、语言理解 / 推理与动作生成统一到端到端框架中,让智能体(自动驾驶汽车、机器人等)完成 "看 --- 懂 --- 做" 的闭环,直接输出可执行动作指令,是具身智能与端到端决策的关键范式。2023 年 Google DeepMind 的 RT - 2 模型首次确立该技术路线,如今已成为自动驾驶、机器人领域的核心方向。
核心架构与关键组件
| 组件 | 核心功能 | 常见实现 |
|---|---|---|
| 视觉编码器 | 提取图像 / 点云 / 视频的高层语义特征(如目标位置、场景结构) | ViT、CLIP、DINOv2 |
| 语言编码器 | 解析自然语言指令 / 规则,生成语义表征 | LLaMA、GPT、PaLM 等基础 LLM |
| 跨模态融合模块 | 对齐视觉与语言特征,构建全局上下文与因果推理 | Transformer 跨模态注意力、投影器 |
| 动作生成 / 策略模块 | 输出连续控制指令(如转向角度、速度)或离散动作 | RT - 2 策略头、扩散策略网络、控制解码器 |
| 状态反馈模块(可选) | 实时回传执行状态,动态调整动作 | 本体感知传感器、闭环控制单元 |
核心特性与核心价值
- 端到端一体化:摒弃传统感知 - 规划 - 控制的模块化拆分,减少人为规则干预,直接从原始输入映射到动作输出,适配复杂场景(如施工路段、潮汐车道)。
- 类人推理与语义理解:依托 LLM 实现思维链(CoT)推理,理解交通规则、用户指令与场景意图(如 "前方行人可能横穿马路"),提升决策合理性与可解释性。
- 多模态泛化:融合视觉、语言、状态等多源信息,可通过上下文学习适配新任务,降低特定场景标注成本。
- 闭环适配能力:结合实时状态反馈调整动作,应对环境动态变化,如突发障碍物规避。
与传统方案的核心差异
| 维度 | VLA 模型 | 传统自动驾驶 / 机器人方案 | 视觉 - 语言模型(VLM) |
|---|---|---|---|
| 架构逻辑 | 端到端统一网络,感知 - 理解 - 动作一体 | 模块化拆分(感知→规划→控制),依赖规则 | 仅负责视觉 - 语言理解,无动作输出 |
| 推理能力 | LLM 驱动的全局因果推理 | 多为局部模式匹配,推理弱 | 仅语义匹配,无决策 / 动作生成 |
| 泛化性 | 强,可零样本适配新指令 / 场景 | 弱,需重新调参或改规则 | 强于模态理解,无执行能力 |
| 决策透明度 | 可通过语言模块输出推理过程 | 黑盒模块,难解释决策逻辑 | 无动作决策环节 |
主流代表与核心应用
- 典型模型
- 机器人领域:RT - 2、OpenVLA、CLIP - RT。
- 自动驾驶领域:理想 MindVLA、小鹏 XNGP VLA 架构、华为 ADS 3.0 VLA 模块。
- 核心场景
- 自动驾驶:处理多模态感知、自然语言指令(如 "导航到 XX")、复杂路况决策,输出车辆控制指令。
- 机器人:机械臂操作(如 "拿起红色杯子")、家居服务、工业装配,实现精准动作执行。
- 具身交互:无人机巡检、智能座舱多模态控制等。
关键局限与挑战
- 算力成本高:多模态融合与 LLM 推理对车载 / 边缘算力要求严苛,需轻量化与量化优化。
- 动作精度与安全性:复杂物理场景下(如湿滑路面),动作生成的稳定性与安全性需大量数据验证。
- 对齐难度大:视觉 - 语言 - 动作的跨模态语义一致性难保证,易出现指令与动作偏差。
query 指的什么?
在端到端自动驾驶、VLA 模型或 Transformer 架构 的语境中,query(查询向量) 是源自注意力机制的核心概念,本质是 **"用于主动检索信息的特征向量"** ------ 模型通过 query 去匹配、提取输入数据中与当前任务目标相关的关键信息。
一、先理清:query 的本源(注意力机制中的三元组)
在 Transformer 的自注意力 / 交叉注意力模块中,query 与 key(键向量) 、value(值向量) 共同构成 "查询 - 匹配 - 取值" 的核心逻辑,三者都是输入数据经过线性变换得到的特征向量,分工明确:
| 向量 | 核心作用 | 通俗理解 |
|---|---|---|
| Query(Q) | 代表当前任务的需求 / 目标,是 "检索的发起方" | 你在搜索引擎输入的关键词 |
| Key(K) | 代表输入数据的索引特征,是 "被检索的对象" | 数据库里所有文档的标题 / 标签 |
| Value(V) | 代表输入数据的核心内容,是 "检索后要提取的信息" | 数据库里文档的具体内容 |
注意力机制的计算逻辑就是:
- 计算 Q 与所有 K 的相似度(得到注意力权重),判断哪些输入信息和当前任务需求相关;
- 用注意力权重对 V 加权求和,得到聚焦于当前需求的输出特征。
二、在端到端自动驾驶 / VLA 中的具体理解
端到端模型的目标是直接从原始输入(图像、点云、语言指令)映射到动作输出(转向、速度) ,query 在这里的作用会根据具体环节有所不同,核心是锚定 "当前需要解决的决策目标"。
1. 感知 - 融合环节的 query:锚定 "关键场景要素"
以多模态融合为例(如视觉 + 语言指令):
- 输入可能是车载摄像头图像 (拆分为多个 patch 的特征) + 人类指令 "避开前方行人"(语言特征)。
- 此时,语言指令的特征会被作为 query ------ 它代表 "要找行人" 这个任务目标。
- 模型用这个 query 去匹配图像中所有 patch 的 key 向量,计算注意力权重:行人对应的 patch 会获得高权重,无关背景(如天空、树木)权重低。
- 最终加权得到的 value 向量,就是聚焦于 "行人位置" 的视觉特征,为后续决策提供关键信息。
2. 决策 - 动作环节的 query:锚定 "当前驾驶任务"
在端到端决策模块中,query 通常代表当前时刻的驾驶状态目标:
- 比如,将车辆当前的定位、速度、车道信息编码为 query,它代表 "维持车道居中 + 安全车速" 的决策需求。
- 用这个 query 去匹配历史驾驶经验特征(如 "弯道该减速""跟车需保持车距" 的特征,作为 key 和 value)。
- 模型通过注意力检索出与当前状态最匹配的历史经验,进而生成最优动作指令(如 "转向角度 - 5°,速度 60km/h")。
3. 对比:端到端 vs 传统模块化中的 query 差异
- 传统模块化:感知、规划、控制分开,query 只在单一模块内局部使用(如感知模块用 query 找车辆 / 行人)。
- 端到端模型 :query 贯穿 "感知 - 融合 - 决策" 全流程,实现全局信息检索 ------ 比如用 "语言指令 query" 直接检索整个场景的多模态特征,跳过中间模块化的信息损耗。
三、通俗总结:怎么理解端到端中的 query?
你可以把端到端模型想象成一个 **"自动驾驶专属的智能秘书"**:
- query = 你给秘书的 "任务指令"(比如 "帮我找今天的会议资料");
- 秘书拿着这个指令(query),去办公室的文件柜(输入数据的 key/value)里翻找;
- 只挑和 "会议" 相关的资料(高权重 value),忽略无关文件(低权重);
- 最终整理出的资料,就是能直接用的决策依据。
query 的核心价值就是让模型 "不盲目处理所有输入",而是精准聚焦于当前任务目标,提升端到端决策的效率和准确性。
扩散模型
类似一个插件,可以将轨迹精细化:通过逐层去噪,得到清晰的,符合要求的轨迹。
header 指什么?
在你关注的自动驾驶端到端模型、Transformer、VLA/MLLM 这类 AI 架构语境中,header(通常译作 "头") 是模型中负责特定任务的子网络模块,它依附于主干网络(Backbone)的特征输出,实现 "特征→任务目标" 的映射。
简单来说:主干网络负责提取通用特征,header 负责把通用特征转化为具体任务的输出。
一、 核心分类与作用
根据任务类型不同,header 的结构和目标差异很大,在自动驾驶和视觉 - 语言 - 动作模型中,常见的 header 主要有两类:
-
注意力头(Attention Head) 这是 Transformer 架构的核心组件,对应之前提到的多头注意力机制中的 "头"。
- 原理:将模型的特征向量拆分为多个并行的子空间,每个 attention header 独立计算一组 Query、Key、Value,捕捉输入数据中不同维度的关联信息(比如在自动驾驶中,一个头关注车道线,一个头关注行人,一个头关注交通信号灯)。
- 特点:多个 header 的结果会被拼接后再线性变换,实现 "多角度特征融合",让模型的注意力更全面。
-
任务头(Task Header) 这是端到端模型中负责输出最终任务结果的模块,也是自动驾驶、机器人 VLA 模型中更常提到的 "header"。不同任务对应不同的 task header,比如:
- 感知任务头 :目标检测的
检测头(输出目标的类别、边界框)、语义分割的分割头(输出每个像素的类别);在自动驾驶中,用于识别车辆、行人、车道线等。 - 决策 / 动作任务头 :这是 VLA 模型的核心 ------ 接收多模态融合后的特征,输出具体的动作指令。比如自动驾驶的
控制头(输出转向角、油门 / 刹车力度)、机器人的机械臂动作头(输出关节角度、抓取力度)。 - 语言交互头:在 MLLM/VLA 中,负责将视觉 + 状态特征转化为自然语言输出(比如解释 "为什么减速")。
- 感知任务头 :目标检测的
二、 端到端自动驾驶中的典型应用
以端到端自动驾驶模型为例,header 的作用可以用这个流程理解:
- 主干网络:ViT/CNN 等提取摄像头图像、激光雷达点云的通用特征(比如 "这是道路""这是移动物体")。
- 融合模块:将多模态特征与语言指令(如 "避开障碍物")对齐融合,得到全局上下文特征。
- 任务 header:
- 若为模块化端到端 :可能分
感知头(识别障碍物)→规划头(生成避障路径)→控制头(输出转向 / 速度)。 - 若为纯端到端 :一个
动作头直接接收融合特征,输出最终的车辆控制指令,跳过中间步骤。
- 若为模块化端到端 :可能分
三、 关键特点
- 轻量化 :header 通常是结构简单的小型网络(如几层卷积、全连接层),不会像主干网络那样复杂,目的是降低计算开销,适配车载边缘算力。
- 任务特异性:不同任务的 header 不能混用 ------ 检测头无法直接输出控制指令,必须针对任务定制。
- 可插拔性:可以替换不同的 header 来适配不同场景,比如把 "城市道路控制头" 换成 "高速道路控制头",无需改动主干网络。
MLP 是什么?
MLP 是「Multi-Layer Perceptron,多层感知机 」的缩写,也是你之前问的 Transformer、MLLM、VLA、端到端自动驾驶里最基础、最核心、出镜率最高的组件 ,没有之一 ,所有你聊到的这些大模型里,全都是标配 MLP 的,先给你结论:✅ 一句话理解 :MLP 就是多层的神经网络(全连接网络) ,核心作用是:对提取好的特征做「非线性的精细化加工」,把简单特征揉成复杂特征,把特征变成最终的输出(比如转向角度、刹车力度)。
一、先搞懂:MLP 的本质 & 基础结构(超级简单)
MLP 是深度学习里最基础的神经网络结构 ,属于「全连接神经网络 (FC) 」的升级版,只有「一层全连接」叫单层感知机,≥2 层全连接 + 激活函数 ,就叫多层感知机(MLP)。
✅ 核心组成(3 个部分,缺一不可)
- 输入层 :接收上游传过来的特征向量(比如 Transformer 的注意力输出、CNN/ViT 提取的图像特征、激光雷达的点云特征)
- 隐藏层 :多层的全连接层 + 非线性激活函数 (ReLU/GELU/Sigmoid),这是 MLP 的核心,也是模型能拟合复杂规律的关键
- 输出层 :也是全连接层,把加工后的特征,映射成任务需要的结果(比如自动驾驶的「转向角、油门、刹车」,分类任务的「类别概率」)
✅ 为什么 MLP 是「灵魂」?------ 非线性的意义
你可以把特征理解成「做菜的食材」:
- 没有 MLP / 只有线性层:只能做「凉拌菜」,食材简单拼合,只能拟合简单规律(比如 "看到红灯就刹车" 这种简单规则)
- 有了 MLP 的非线性:能做「满汉全席」,把食材(特征)翻炒、调味、组合,拟合复杂的非线性规律(比如 "雨天 + 弯道 + 前车减速,我该降多少速、打多少方向")
补充:自动驾驶里的场景全是非线性的,没有 MLP,所有模型都只能处理最简单的路况,这也是为什么所有端到端 / VLA/Transformer 模型里必带 MLP。
二、你最关心的:在「Transformer / 端到端 / VLA/MLLM」里,MLP 到底在哪?做什么?
你之前问的所有概念,MLP 都在里面扮演核心角色,而且位置固定、作用统一 ,我按你熟悉的场景拆解,优先级从高到低,也是你接触最多的场景:
✅ 1. Transformer 里的 MLP(重中之重!必考必问)
Transformer 的每一个 Encoder 层、每一个 Decoder 层 ,内部都是「多头注意力模块 + MLP 模块」串联而成,这是 Transformer 的标准结构,缺一不可,两者分工明确:
📌 Transformer 双核心分工(黄金结论,记牢!)
- 多头注意力(Multi-Head Attention) :负责 「找关联」 ------ 计算全局的特征依赖,比如图像里 "行人" 和 "车道" 的位置关系、语言里 "左转" 和 "路口" 的语义关系,提取全局关联特征。
- MLP(多层感知机) :负责 「精加工」 ------ 对注意力模块输出的「关联特征」,做逐位置的非线性变换,把这些关联特征揉得更细、更抽象,变成模型能理解的高阶特征。
而且 Transformer 里的 MLP 是固定结构 :Linear(升维) → GELU激活 → Linear(降维),业内也叫「Feed Forward Network (FFN) 」------ 注意:FFN ≈ MLP ,在 Transformer 里这两个词是完全等价的,你看到论文里写 FFN,就是指 MLP!
✅ 2. 端到端自动驾驶里的 MLP(核心输出组件)
端到端的核心是「原始输入(图像 / 点云 / 语言)→ 特征提取 → 动作输出(转向 / 油门 / 刹车) 」,MLP 在这个流程里出现 2 次 ,都是核心:① 特征融合阶段 :上游的 ViT/CNN/ 注意力模块提取完多模态特征后,用 MLP 做特征对齐 + 融合 ,把视觉特征、语言特征、车辆状态特征(速度 / 位置)揉成一个统一的特征向量。② 动作输出阶段(Task Header) :这是端到端的最后一步,也是你之前问的「Header / 任务头」的核心组成!
端到端的「控制头 / 动作头」,本质就是一个轻量化的 MLP ------ 输入是融合后的全局特征,输出就是自动驾驶的连续控制指令(比如转向角∈[-30°,30°],油门∈[0,1],刹车∈[0,1])。
✅ 3. MLLM/VLA 里的 MLP(跨模态桥梁)
MLLM(多模态大语言模型)、VLA(视觉语言动作模型)的核心是「跨模态对齐」,MLP 在这里的作用是做「模态转换器」:
- 视觉编码器(ViT)提取的图像特征,维度和 LLM 的语言特征维度不一样,用MLP 做线性 + 非线性映射,把视觉特征的维度对齐到语言特征的维度,实现「图文融合」。
- VLA 的最后一步,融合后的视觉 - 语言特征,也是通过MLP 动作头输出最终的「动作指令」(机器人的关节角度、自动驾驶的控制量)。
三、关键易混概念:MLP 与 CNN/Transformer/ 全连接层 区别(你一定会遇到)
你已经学了 CNN、Transformer、MLP,很容易混淆,我用极简对比 + 通俗理解讲清楚,都是自动驾驶 / AI 里的高频考点:
✅ ① MLP vs 单层全连接层 (FC)
- 单层 FC:只有一层线性变换,无激活函数、无非线性,只能拟合简单的线性规律,能力极弱。
- MLP:多层 FC + 激活函数,有非线性,能拟合任意复杂的非线性规律,是 FC 的升级版。
结论:MLP ≈ 多层带激活的全连接网络
✅ ② MLP vs CNN(卷积神经网络)
两者都是特征提取器,但特征提取的逻辑完全相反,也是你之前问的「CNN 为什么会被 Transformer 取代」的补充:
- CNN :局部特征优先 → 用卷积核扫图像的局部区域,提取局部纹理 / 边缘特征,再通过堆叠扩大感受野,擅长捕捉空间局部规律(比如车道线、车辆轮廓),优点是计算快、参数量小。
- MLP :全局特征优先 → 全连接层的每一个神经元,都和上一层的所有神经元相连 ,能看到全局的特征,擅长拟合全局的非线性规律,但缺点是参数量大、容易过拟合。
自动驾驶里的搭配:CNN 提取局部视觉特征 → MLP 精加工 → 注意力找全局关联 → MLP 输出动作,完美互补!
✅ ③ MLP vs Transformer
这个是最关键的区分,很多人会误以为 Transformer 是 MLP 的升级版,其实不是:
- Transformer :是一个「大框架 」,核心是多头注意力 + MLP 组成的堆叠模块,Transformer 的能力来自「注意力的全局关联 + MLP 的非线性加工」。
- MLP :是一个「基础组件 」,是 Transformer 这个大框架里的核心子模块,相当于「Transformer 是电脑,MLP 是 CPU」。
黄金结论:Transformer 离不开 MLP,但 MLP 可以独立存在。
四、自动驾驶里的 MLP:特殊点 & 为什么必须用?
在自动驾驶的端到端 / VLA 模型里,MLP 和纯视觉 / 纯 NLP 里的 MLP 有一个关键区别 ,也是适配自动驾驶的优化:✅ 自动驾驶的 MLP 都是「轻量化 MLP 」:因为车载算力有限,不能用太深的 MLP,一般只有2-3 层隐藏层,参数量小、推理速度快,但是足够拟合「特征→动作」的非线性映射。
✅ 为什么自动驾驶必须用 MLP?
自动驾驶的核心需求是「从特征到动作的精准映射」,而驾驶行为是高度非线性的:比如同样是前方有车,雨天和晴天的刹车力度完全不同,弯道和直道的转向角度也不同。这种非线性的规律,只有 MLP 能完美拟合,没有 MLP,所有模型都只能输出死板的规则化动作,无法应对复杂路况。
五、极简总结(所有知识点浓缩,背下来就行)
- MLP = 多层感知机 = 多层带激活函数的全连接网络,是深度学习最基础的核心组件。
- MLP 的核心作用:非线性特征精加工 + 特征→任务输出的映射。
- Transformer 里:MLP 是多头注意力的「搭档」,注意力找关联,MLP 做加工,缺一不可。
- 端到端自动驾驶里:MLP 是「动作头 / 控制头」的核心,最终的转向、油门、刹车,都是 MLP 输出的。
- MLLM/VLA 里:MLP 是跨模态对齐的桥梁,也是动作输出的核心。
- 核心关系:CNN(局部特征) → 注意力(全局关联) → MLP(特征加工) → MLP(动作输出)。
补充:你之前问的所有概念,和 MLP 的关系(一网打尽,闭环!)
你从 Transformer→MLLM→VLA→端到端→Query→Header→MLP,所有概念串联起来,形成完整的逻辑链,这也是自动驾驶大模型的完整技术栈,记下来:
原始输入(图像 / 点云 / 语言) → CNN/ViT 提取特征 → Transformer 的多头注意力(Query/Key/Value 找全局关联) → MLP 精加工特征 → 跨模态融合 → 轻量化 MLP(Header / 动作头) → 输出自动驾驶动作指令(转向 / 油门 / 刹车)
Self-Attention(自注意力) 和 Cross-Attention(交叉注意力)区别和联系
二者是 Transformer 架构的基石,也是 MLLM、VLA、端到端自动驾驶模型中实现特征关联的核心手段,也是 MLLM、VLA、端到端自动驾驶模型中实现 "全局关联" 和 "跨模态融合" 的关键机制。两者都基于注意力的 "Query-Key-Value" 三元组逻辑,但作用对象、场景和目标完全不同。
一、 核心定义与作用
1. Self-Attention(自注意力)
核心逻辑 :让输入序列 / 特征集合中的 每个元素,都和同一集合内的所有其他元素计算关联度 ,从而捕捉单一模态内部的全局依赖关系。
- 一句话定义 :同一组输入内部的注意力机制 ,让输入序列中的每个元素(如图像的 patch、句子的单词、点云的点)都能关注到序列内的其他所有元素,捕捉内部的全局依赖关系。
-
计算对象:同一组特征(比如纯图像 patch 特征、纯语言 token 特征、纯激光雷达点云特征)。
-
通俗理解:相当于让一张图片里的每个像素 / 区域,都 "看一眼" 整张图的其他区域,搞清楚 "我和周围哪些部分有关系"。
-
典型计算流程:
- 对输入特征生成三组向量:Query(Q,查询)、Key(K,键)、Value(V,值);
- 计算每个 Q 与所有 K 的相似度,得到注意力权重;
- 用权重对 V 加权求和,得到融合全局关联的输出特征。
-
自动驾驶场景应用:
- 输入是摄像头图像的 patch 特征 → 自注意力让 "车道线 patch" 关联 "路边行人 patch""红绿灯 patch",理解整个驾驶场景的全局结构;
- 输入是交通规则文本 → 自注意力让 "红灯" 关联 "停车","斑马线" 关联 "礼让行人",建立规则内部的语义关联。
- Transformer 编码器中(如 ViT 提取图像特征时,让每个 patch 关注其他 patch);
- 自动驾驶感知环节(如从点云序列中捕捉车辆与障碍物的位置关系)。
2. Cross-Attention(交叉注意力)
核心逻辑 :让 两个不同模态 / 集合的特征,互相计算关联度 ,实现跨模态的特征对齐与融合。
-
计算对象:两组不同来源的特征(比如「图像特征」和「语言指令特征」、「激光雷达点云特征」和「车辆状态特征」)。
-
一句话定义 :两组不同输入之间的注意力机制 ,让一组输入(称为 "查询侧")去关注另一组输入(称为 "键值侧"),捕捉跨输入 / 跨模态的依赖关系。
-
通俗理解:相当于让 "语言指令(比如'避开前方障碍物')" 去 "匹配" 图像里的所有区域,找到哪个区域是 "障碍物";或者让 "车辆定位特征" 去匹配高精地图特征,确定自己在地图中的位置。
-
工作原理 :输入是两组不同的特征序列(如视觉特征序列和语言特征序列、历史状态序列和当前感知序列),其中:
- Query 来自查询侧输入(如语言指令的特征,代表 "任务需求");
- Key 和 Value 来自键值侧输入 (如视觉图像的特征,代表 "待检索的信息")。计算 Query 与 Key 的相似度,得到注意力权重,再对 Value 加权求和,最终输出的是查询侧基于键值侧信息优化后的特征。
-
典型计算流程:
- 定义 参考特征 (比如语言指令特征,生成 K 和 V)和 查询特征(比如图像特征,生成 Q);
- 用查询特征的 Q,去匹配参考特征的 K,计算注意力权重;
- 用权重对参考特征的 V 加权求和,得到融合了跨模态信息的输出特征。
-
自动驾驶场景应用:
- 多模态融合:用图像特征做 Q,语言指令("导航到超市")做 K/V → 交叉注意力让模型聚焦图像中与 "超市" 相关的路标;
- 地图匹配:用激光雷达点云特征做 Q,高精地图特征做 K/V → 交叉注意力实现车辆定位与地图特征的对齐。
- Transformer 解码器中(如机器翻译时,让目标语言关注源语言);
- 多模态融合(如 MLLM 中让语言特征关注视觉特征、VLA 中让动作指令关注感知特征);
- 自动驾驶的人机交互(如让车辆控制指令关注用户的自然语言需求)。
二、 优缺点对比
| 维度 | Self-Attention(自注意力) | Cross-Attention(交叉注意力) |
|---|---|---|
| 核心优势 | 1. 捕捉单一模态内部的全局依赖,无需堆叠多层即可实现长距离关联;2. 不依赖输入顺序(配合位置编码),处理效率高于 RNN;3. 输出特征自带全局上下文信息,适合场景理解。 | 1. 实现跨模态特征对齐,是 MLLM、VLA 多模态融合的核心;2. 可以灵活指定 "参考特征" 和 "查询特征",适配不同任务需求;3. 让模型聚焦 "任务相关" 的跨模态信息,减少无关噪声。 |
| 核心缺点 | 1. 计算复杂度高:\(O(n^2)\)(n 为特征元素数量),输入尺寸大时(如高分辨率图像)算力开销大;2. 对噪声敏感:如果输入特征中有冗余信息,会被无差别关联;3. 缺乏先验约束:纯自注意力可能过度关注无关区域(比如天空)。 | 1. 依赖两组特征的质量:如果参考特征(如语言指令)模糊,对齐效果会大幅下降;2. 计算成本更高:相比自注意力多了一组特征的交互,算力消耗更大;3. 对齐难度大:不同模态的语义空间差异大(如视觉和语言),容易出现 "图文不符"。 |
| 适用场景 | 单一模态的全局特征建模:图像全景理解、文本语义分析、点云结构感知 | 跨模态的特征融合与任务对齐:视觉问答、自动驾驶多模态感知、人机语言交互 |
三、 工程优化方向(针对自动驾驶算力受限场景)
不管是自注意力还是交叉注意力,原始版本的算力开销都不适合车载边缘设备,因此实际应用中会做针对性优化:
- 稀疏注意力:只计算每个 Query 与附近 Key 的关联,把 \(O(n^2)\) 降到 \(O(n)\),适合高分辨率图像 / 点云;
- 分层注意力:先对特征做下采样,再计算注意力,降低元素数量;
- 线性注意力:通过数学变换简化注意力计算,牺牲少量精度换取速度;
- 轻量化交叉注意力:在自动驾驶 VLA 模型中,只保留 "语言指令 - 视觉特征" 的关键交叉路径,砍掉冗余计算。
四、 核心关联(和你之前问的概念串联)
在端到端自动驾驶 VLA 模型中,二者是协同工作的:
图像 / 点云特征 → Self-Attention 做单模态全局建模 → 语言指令特征 → Cross-Attention 做跨模态对齐 → MLP 特征加工 → 动作头输出控制指令
一段式 端到端:
经典论文:
- Planning-oriented Autonomous Driving
- TrackFormer: MOTR
- MapFormer: Panoptic SegFormer
- BEV Object Detection, Segmentation, Occupancy
- OccFormer
- VAD: Vectorized Scene Representation for Efficient Automous Driving
- VAD: 认为向量化表征更符合人类的认知(对物体的在大脑中进行简化表示),优于栅格化(占内存耗资源)
- 世界模型的工作:
- 3DGS使用高斯球在强调对于图像的模拟能力,另一方面缺会弱化对于3D场景的描述能力。
- Occupancy对形状的表达,天然适合做世界模型,这类的工作有:
- Diving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Panning via World Models for Autonomous Driving
- DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
- CVPR 2025 华科 地平线: 核心思想:给 diffusion 加 anchors (先验)
- 认知科学认为:人类处理信息都是用极度抽象化的信息进行的。
VLA 核心技术
VLA的工作大都是系统级的工作
- 至少由BEV感知 +LLM两个大模块组成
- 涉及至少图像、文本、动作三种数据模态
- 数据编码、信息流动、特征交互是常态
- 涉及至少VQA、planning、perception三种任务
- 训练一定会分多个阶段
省略全部底层细节的介绍
- 数据是何形态
- Query如何产生
- 维度是否对齐
- Encoder如何做
- Decoder如何做
- Loss如何设计
BEV former 已过时
模型架构差不多,而护城河在于数据调得怎么样,训练策略用得好不好,后处理协同做得好不好等等一些,也包括对于这些网络架构这些技术细节钻得深不深。
Transformer: Attention is all you need
Vision Transformer (ViT)
CLIP: Contrastive Language-Image Pre-training (多模态融合从这里开始一发不可收拾)


LLaVA: Visual Instruction Tuning
ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
- ICCV, 2025 华科,小米
- 业内尚缺少能很好的对齐reasoning space和action space的工作
- 因此提出一个unified的端到端模型,可以同时完成VQA和planning
采集的数据 pk 生成的数据:
采集数据更真实,但有一定的成本,特别是极端场景,雨雪雾等
生成的数据快速,但真实性不如采集的数据,可以用来做一些可行性分析,作为采集数据的指导。