自动驾驶_端到端_VLA_概念介绍

端到端:

将 感知和规划 合二为一,替代之前基于规则的方法

代表工作: PLUTO: 2023-2024年,第一次打败了规则的planning

PLUTO: Pushing the Limit of Imitation Learning-based Planning for Autonomous

Driving, AI模型在nuPlan首次击败基于规则的planner PDM, PDM:2023nuPlan planning challenge冠军,打败一众AI方案

此前AI方案的弱项

  • 不擅长做横向行为建模
  • 开环评测与闭环评测结论差异大
  • 总学到short-cut,混淆因果

Query-based网络结构

  • 对横向、纵向规划单独建模
  • 在构建query的过程中将横向、纵向融合,增强模型同时规划横纵向行为的能力

辅助loss

  • ·提出一种差分插值辅助loss
  • ·引入多项辅助训练任务,且对batch-wise运算友好,便于大规模应用于当代AI模型

数据增强

  • 扰动,dropout,insertion
  • 用以缩小开环评测与闭环评测的差异

对比学习

  • ·与数据增强配合使用,引入对比损失
  • ·用以抑制模型学习short-Cut

transformer 是什么 ? 计算机视觉领域,为什么能取代cnn

一、Transformer 是什么

Transformer 是 2017 年由 Google 团队在论文 Attention Is All You Need 中提出的一种基于自注意力机制(Self-Attention) 的深度学习模型架构,最初被设计用于自然语言处理(NLP)任务(如机器翻译)。

它的核心特点和组成如下:

  1. 核心机制:自注意力机制 自注意力让模型能够直接计算输入序列中任意两个位置的依赖关系,而无需像循环神经网络(RNN)那样按顺序处理数据。例如在翻译句子时,模型可以同时关注 "猫" 和 "抓" 这两个词的关联,效率远高于逐词处理的 RNN。
  2. 关键组件
    • 多头注意力(Multi-Head Attention) :将自注意力拆分为多个并行的 "注意力头",分别捕捉不同维度的依赖关系,提升模型的表征能力。
    • 编码器 - 解码器(Encoder-Decoder)结构:编码器负责处理输入序列并生成上下文表征,解码器负责根据编码器的输出生成目标序列(适用于翻译、摘要等生成任务)。
    • 位置编码(Positional Encoding):由于 Transformer 没有循环结构,无法感知输入的顺序信息,因此需要手动添加位置编码来标记每个元素的位置。
    • 前馈神经网络(FFN):对每个位置的表征进行独立的非线性变换,进一步提取特征。

二、在计算机视觉领域,Transformer 为什么能取代 CNN

CNN(卷积神经网络)曾是计算机视觉的绝对主流,它通过局部卷积核 + 池化操作 提取空间特征,依赖局部感受野权重共享实现高效计算。但 Transformer 凭借自身优势,逐渐在多个视觉任务中超越 CNN,核心原因如下:

  1. 全局上下文建模能力的天然优势

    • CNN 的局限:CNN 的感受野是局部且逐步扩大的,需要通过堆叠多层卷积层才能捕捉长距离依赖,对于大尺寸图像或需要全局关联的任务(如目标检测、语义分割),效率和效果都受限。例如在识别 "一只狗追着一辆车" 的场景时,CNN 需要多层卷积才能关联 "狗" 和 "车" 的位置关系。
    • Transformer 的优势:基于自注意力机制,Transformer 可以直接捕捉图像中任意两个像素的关联,无需依赖多层堆叠,天然具备全局上下文建模能力。这对于需要理解整体场景的任务(如全景分割、图像描述)至关重要。
  2. 更强的灵活性和泛化能力

    • CNN 的结构依赖固定的卷积核尺寸网格状的局部操作,对图像的变形、缩放等变换的适应性较弱,且难以迁移到不同分辨率的输入。
    • Transformer 将图像转化为序列数据 (如把图像切分为多个 16×16 的 patch,再将每个 patch 视为一个 "token",类似 NLP 中的单词),这种 "序列化" 处理方式不依赖图像的网格结构,可灵活适配不同分辨率的图像,泛化能力更强。典型代表是 ViT(Vision Transformer),它直接将 Transformer 应用于图像 patch 序列,在 ImageNet 等数据集上达到了超越 CNN 的精度。
  3. 解决 CNN 的 "长尾问题" 在自动驾驶、医疗影像等复杂视觉任务中,存在大量罕见但关键的场景(如极端天气下的车道线、罕见的病灶)。CNN 由于局部特征提取的局限性,对这些长尾场景的识别能力较弱;而 Transformer 的全局注意力可以更好地利用上下文信息,提升对罕见场景的鲁棒性。

  4. 多模态任务的天然适配性 视觉任务正越来越多地向多模态融合发展(如自动驾驶中的 "图像 + 激光雷达 + 文本规则" 融合)。Transformer 最初就是为跨模态任务设计的,其架构可以无缝整合图像、文本、点云等不同模态的数据,而 CNN 则需要额外的适配模块才能实现多模态融合。

  5. 算力提升带来的可行性 Transformer 的自注意力机制计算复杂度为 O(n2)(n 为 token 数量),早期因算力限制无法应用于大尺寸图像。但随着 GPU/TPU 算力的提升,以及稀疏注意力、分层注意力等优化技术的出现,Transformer 的计算效率大幅提升,已经能够处理高分辨率图像。

补充:并非完全取代,而是互补

需要注意的是,Transformer 并没有完全淘汰 CNN,目前主流的视觉模型多为 CNN+Transformer 的混合架构(如 Swin Transformer、ConvNeXt)。这些模型结合了 CNN 的局部特征提取效率和 Transformer 的全局建模能力,在精度和速度上达到了更好的平衡。

MLLM 是什么?

MLLM 是 Multimodal Large Language Model(多模态大语言模型) 的简写,核心是以大语言模型(LLM)为 "大脑",融合文本、图像、音频、视频等多种模态信息,实现跨模态的理解、推理与生成,突破纯文本 LLM 的能力边界。


核心定义与本质

MLLM 是 LLM 的自然扩展,通过模态编码器与跨模态对齐机制,将非文本数据(如图像、语音)转化为与文本兼容的语义表征,在统一空间中融合信息,让模型具备 "看、听、说、想" 的综合智能,更贴合人类多感官认知习惯。

典型架构与关键组件

组件 核心功能 常见实现
基础 LLM 提供语言理解、推理与生成能力,作为模型 "中枢" GPT、LLaMA、GLM 等
模态编码器 处理图像、音频等非文本输入,提取高维语义特征 ViT(视觉)、CNN、语音识别网络
跨模态投影器 将非文本特征映射到 LLM 的语义空间,实现模态对齐 线性层、轻量 Transformer
对齐微调模块 通过指令微调 / 人类反馈强化学习,适配多模态任务 多模态指令数据集、RLHF

核心能力与价值

  1. 多模态理解:可完成视觉问答(VQA)、图像描述、视频内容分析、语音转文字并推理等任务。
  2. 跨模态生成:支持根据文本生成图像 / 视频、根据图像生成故事、语音合成等。
  3. 复杂推理:结合多模态信息实现因果推断(如分析图像中事件的前因后果)、数学推理(无 OCR 解题)等。
  4. 泛化与适配:通过上下文学习(M-ICL)快速适配新任务,降低标注成本。

与纯文本 LLM、传统多模态模型的差异

维度 MLLM 纯文本 LLM 传统多模态模型
处理模态 文本 + 图像 / 音频 / 视频等 仅文本 多模态但无强语言中枢
推理能力 跨模态复杂推理 文本推理为主 单任务模态转换,推理弱
任务范围 理解 + 生成,覆盖多场景 纯文本任务 多为单任务(如图像分类)
泛化性 强(通过指令微调适配新任务) 依赖文本指令 弱,需重新训练

主流代表与应用场景

  • 代表模型:GPT-4V、Gemini、LLaVA、MiniGPT-4、InstructBLIP。
  • 核心场景:视觉问答、图像 / 视频内容创作、自动驾驶多模态感知、医疗影像 + 报告分析、人机交互(语音 + 视觉)等。

关键局限

  1. 模态不平衡:常存在 "语言强、视觉弱",对细粒度视觉细节(如纹理、小物体)理解不足。
  2. 计算成本高:多模态特征处理与对齐增加推理开销,需算力优化。
  3. 对齐难度大:跨模态语义一致性难保证,易出现 "图文不符" 等生成错误。

世界模型是什么?

世界模型(World Model)是 AI 系统内部构建的、用于模拟、理解并预测外部环境动态规律的计算模型,核心是让智能体像人类 "心智模拟" 那样,通过内部仿真做决策与规划,无需在真实环境反复试错。其概念源于认知科学对人类心智表征的模拟,2018 年 David Ha 与 Jürgen Schmidhuber 的《World Models》论文奠定了强化学习领域的应用范式。


核心定义与本质

世界模型并非复刻真实世界,而是对环境的抽象化、结构化内部表征,聚焦实体、因果、物理规则与动态变化,核心实现 "感知→建模→预测→行动" 的闭环,帮助 AI 在潜在空间做 "虚拟实验",评估动作后果并优化策略。

典型架构与核心组件

组件 核心功能 常见实现
表征模型(编码器) 将图像、点云、文本等高维原始数据压缩为低维抽象潜在表征,提取核心信息(如位置、速度、类型) CNN、ViT、多模态编码器
预测 / 动力学模型 基于当前状态与动作,预测下一状态的潜在表征,学习环境动力学(物理规则、因果关系) Transformer、RNN、自回归模型
控制器 / 策略网络 利用表征与预测结果输出最优动作,完成决策规划 强化学习策略网络、MLLM 决策模块
奖励 / 评估模型(可选) 评估动作收益,辅助策略优化 价值网络、对比学习模块

核心能力与关键价值

  1. 全局与因果理解:突破局部感知局限,捕捉实体间长距离依赖与因果关系(如 "推球会滚动"),适配复杂场景(如自动驾驶、机器人操作)。
  2. 未来状态预测:基于当前观测与动作,推演多步未来状态(如视频生成、轨迹预测),典型如 Sora 对物理规律的内化与动态场景生成。
  3. 反事实推理:支持 "如果做 A 会怎样" 的假设性模拟,在内部试错优化策略,大幅降低真实环境训练成本。
  4. 多模态融合:无缝整合图像、文本、点云等多源数据,适配自动驾驶、人机交互等多模态任务。

与传统模型的核心差异

维度 世界模型 传统感知 / 决策模型
建模范围 全局动态与因果规则 局部特征或单步决策
学习方式 自监督 / 多任务联合学习,构建内部模拟器 监督学习 / 单任务训练,依赖标注
推理能力 支持长时预测与反事实推理 多为单步或短序列输出
泛化性 适配不同分辨率、场景与任务,迁移能力强 依赖特定任务设定,泛化受限

主流应用场景

  • 强化学习:智能体在虚拟环境试错,加速策略收敛(如游戏 AI、机器人操控)。
  • 计算机视觉:视频生成(如 Sora)、目标轨迹预测、语义分割与全景理解。
  • 自动驾驶:融合多模态数据预测交通参与者行为,优化路径规划与决策安全。
  • 多模态交互:结合 MLLM 实现 "语言 + 视觉 + 动作" 的统一理解与生成,支撑 VLA(视觉 - 语言 - 动作)模型。

VLA 是什么?

VLA 是 Vision - Language - Action Model(视觉 - 语言 - 动作模型) 的缩写,核心是以大语言模型(LLM)为中枢,将视觉感知、语言理解 / 推理与动作生成统一到端到端框架中,让智能体(自动驾驶汽车、机器人等)完成 "看 --- 懂 --- 做" 的闭环,直接输出可执行动作指令,是具身智能与端到端决策的关键范式。2023 年 Google DeepMind 的 RT - 2 模型首次确立该技术路线,如今已成为自动驾驶、机器人领域的核心方向。


核心架构与关键组件

组件 核心功能 常见实现
视觉编码器 提取图像 / 点云 / 视频的高层语义特征(如目标位置、场景结构) ViT、CLIP、DINOv2
语言编码器 解析自然语言指令 / 规则,生成语义表征 LLaMA、GPT、PaLM 等基础 LLM
跨模态融合模块 对齐视觉与语言特征,构建全局上下文与因果推理 Transformer 跨模态注意力、投影器
动作生成 / 策略模块 输出连续控制指令(如转向角度、速度)或离散动作 RT - 2 策略头、扩散策略网络、控制解码器
状态反馈模块(可选) 实时回传执行状态,动态调整动作 本体感知传感器、闭环控制单元

核心特性与核心价值

  1. 端到端一体化:摒弃传统感知 - 规划 - 控制的模块化拆分,减少人为规则干预,直接从原始输入映射到动作输出,适配复杂场景(如施工路段、潮汐车道)。
  2. 类人推理与语义理解:依托 LLM 实现思维链(CoT)推理,理解交通规则、用户指令与场景意图(如 "前方行人可能横穿马路"),提升决策合理性与可解释性。
  3. 多模态泛化:融合视觉、语言、状态等多源信息,可通过上下文学习适配新任务,降低特定场景标注成本。
  4. 闭环适配能力:结合实时状态反馈调整动作,应对环境动态变化,如突发障碍物规避。

与传统方案的核心差异

维度 VLA 模型 传统自动驾驶 / 机器人方案 视觉 - 语言模型(VLM)
架构逻辑 端到端统一网络,感知 - 理解 - 动作一体 模块化拆分(感知→规划→控制),依赖规则 仅负责视觉 - 语言理解,无动作输出
推理能力 LLM 驱动的全局因果推理 多为局部模式匹配,推理弱 仅语义匹配,无决策 / 动作生成
泛化性 强,可零样本适配新指令 / 场景 弱,需重新调参或改规则 强于模态理解,无执行能力
决策透明度 可通过语言模块输出推理过程 黑盒模块,难解释决策逻辑 无动作决策环节

主流代表与核心应用

  1. 典型模型
    • 机器人领域:RT - 2、OpenVLA、CLIP - RT。
    • 自动驾驶领域:理想 MindVLA、小鹏 XNGP VLA 架构、华为 ADS 3.0 VLA 模块。
  2. 核心场景
    • 自动驾驶:处理多模态感知、自然语言指令(如 "导航到 XX")、复杂路况决策,输出车辆控制指令。
    • 机器人:机械臂操作(如 "拿起红色杯子")、家居服务、工业装配,实现精准动作执行。
    • 具身交互:无人机巡检、智能座舱多模态控制等。

关键局限与挑战

  1. 算力成本高:多模态融合与 LLM 推理对车载 / 边缘算力要求严苛,需轻量化与量化优化。
  2. 动作精度与安全性:复杂物理场景下(如湿滑路面),动作生成的稳定性与安全性需大量数据验证。
  3. 对齐难度大:视觉 - 语言 - 动作的跨模态语义一致性难保证,易出现指令与动作偏差。

query 指的什么?

端到端自动驾驶、VLA 模型或 Transformer 架构 的语境中,query(查询向量) 是源自注意力机制的核心概念,本质是 **"用于主动检索信息的特征向量"** ------ 模型通过 query 去匹配、提取输入数据中与当前任务目标相关的关键信息。

一、先理清:query 的本源(注意力机制中的三元组)

在 Transformer 的自注意力 / 交叉注意力模块中,query 与 key(键向量)value(值向量) 共同构成 "查询 - 匹配 - 取值" 的核心逻辑,三者都是输入数据经过线性变换得到的特征向量,分工明确:

向量 核心作用 通俗理解
Query(Q) 代表当前任务的需求 / 目标,是 "检索的发起方" 你在搜索引擎输入的关键词
Key(K) 代表输入数据的索引特征,是 "被检索的对象" 数据库里所有文档的标题 / 标签
Value(V) 代表输入数据的核心内容,是 "检索后要提取的信息" 数据库里文档的具体内容

注意力机制的计算逻辑就是:

  1. 计算 Q 与所有 K 的相似度(得到注意力权重),判断哪些输入信息和当前任务需求相关;
  2. 用注意力权重对 V 加权求和,得到聚焦于当前需求的输出特征。

二、在端到端自动驾驶 / VLA 中的具体理解

端到端模型的目标是直接从原始输入(图像、点云、语言指令)映射到动作输出(转向、速度) ,query 在这里的作用会根据具体环节有所不同,核心是锚定 "当前需要解决的决策目标"

1. 感知 - 融合环节的 query:锚定 "关键场景要素"

以多模态融合为例(如视觉 + 语言指令):

  • 输入可能是车载摄像头图像 (拆分为多个 patch 的特征) + 人类指令 "避开前方行人"(语言特征)。
  • 此时,语言指令的特征会被作为 query ------ 它代表 "要找行人" 这个任务目标。
  • 模型用这个 query 去匹配图像中所有 patch 的 key 向量,计算注意力权重:行人对应的 patch 会获得高权重,无关背景(如天空、树木)权重低。
  • 最终加权得到的 value 向量,就是聚焦于 "行人位置" 的视觉特征,为后续决策提供关键信息。
2. 决策 - 动作环节的 query:锚定 "当前驾驶任务"

在端到端决策模块中,query 通常代表当前时刻的驾驶状态目标

  • 比如,将车辆当前的定位、速度、车道信息编码为 query,它代表 "维持车道居中 + 安全车速" 的决策需求。
  • 用这个 query 去匹配历史驾驶经验特征(如 "弯道该减速""跟车需保持车距" 的特征,作为 key 和 value)。
  • 模型通过注意力检索出与当前状态最匹配的历史经验,进而生成最优动作指令(如 "转向角度 - 5°,速度 60km/h")。
3. 对比:端到端 vs 传统模块化中的 query 差异
  • 传统模块化:感知、规划、控制分开,query 只在单一模块内局部使用(如感知模块用 query 找车辆 / 行人)。
  • 端到端模型 :query 贯穿 "感知 - 融合 - 决策" 全流程,实现全局信息检索 ------ 比如用 "语言指令 query" 直接检索整个场景的多模态特征,跳过中间模块化的信息损耗。

三、通俗总结:怎么理解端到端中的 query?

你可以把端到端模型想象成一个 **"自动驾驶专属的智能秘书"**:

  • query = 你给秘书的 "任务指令"(比如 "帮我找今天的会议资料");
  • 秘书拿着这个指令(query),去办公室的文件柜(输入数据的 key/value)里翻找;
  • 只挑和 "会议" 相关的资料(高权重 value),忽略无关文件(低权重);
  • 最终整理出的资料,就是能直接用的决策依据。

query 的核心价值就是让模型 "不盲目处理所有输入",而是精准聚焦于当前任务目标,提升端到端决策的效率和准确性

扩散模型

类似一个插件,可以将轨迹精细化:通过逐层去噪,得到清晰的,符合要求的轨迹。

header 指什么?

在你关注的自动驾驶端到端模型、Transformer、VLA/MLLM 这类 AI 架构语境中,header(通常译作 "头") 是模型中负责特定任务的子网络模块,它依附于主干网络(Backbone)的特征输出,实现 "特征→任务目标" 的映射。

简单来说:主干网络负责提取通用特征,header 负责把通用特征转化为具体任务的输出

一、 核心分类与作用

根据任务类型不同,header 的结构和目标差异很大,在自动驾驶和视觉 - 语言 - 动作模型中,常见的 header 主要有两类:

  1. 注意力头(Attention Head) 这是 Transformer 架构的核心组件,对应之前提到的多头注意力机制中的 "头"。

    • 原理:将模型的特征向量拆分为多个并行的子空间,每个 attention header 独立计算一组 Query、Key、Value,捕捉输入数据中不同维度的关联信息(比如在自动驾驶中,一个头关注车道线,一个头关注行人,一个头关注交通信号灯)。
    • 特点:多个 header 的结果会被拼接后再线性变换,实现 "多角度特征融合",让模型的注意力更全面。
  2. 任务头(Task Header) 这是端到端模型中负责输出最终任务结果的模块,也是自动驾驶、机器人 VLA 模型中更常提到的 "header"。不同任务对应不同的 task header,比如:

    • 感知任务头 :目标检测的检测头(输出目标的类别、边界框)、语义分割的分割头(输出每个像素的类别);在自动驾驶中,用于识别车辆、行人、车道线等。
    • 决策 / 动作任务头 :这是 VLA 模型的核心 ------ 接收多模态融合后的特征,输出具体的动作指令。比如自动驾驶的控制头(输出转向角、油门 / 刹车力度)、机器人的机械臂动作头(输出关节角度、抓取力度)。
    • 语言交互头:在 MLLM/VLA 中,负责将视觉 + 状态特征转化为自然语言输出(比如解释 "为什么减速")。

二、 端到端自动驾驶中的典型应用

以端到端自动驾驶模型为例,header 的作用可以用这个流程理解:

  1. 主干网络:ViT/CNN 等提取摄像头图像、激光雷达点云的通用特征(比如 "这是道路""这是移动物体")。
  2. 融合模块:将多模态特征与语言指令(如 "避开障碍物")对齐融合,得到全局上下文特征。
  3. 任务 header
    • 若为模块化端到端 :可能分感知头(识别障碍物)→规划头(生成避障路径)→控制头(输出转向 / 速度)。
    • 若为纯端到端 :一个动作头直接接收融合特征,输出最终的车辆控制指令,跳过中间步骤。

三、 关键特点

  1. 轻量化 :header 通常是结构简单的小型网络(如几层卷积、全连接层),不会像主干网络那样复杂,目的是降低计算开销,适配车载边缘算力。
  2. 任务特异性:不同任务的 header 不能混用 ------ 检测头无法直接输出控制指令,必须针对任务定制。
  3. 可插拔性:可以替换不同的 header 来适配不同场景,比如把 "城市道路控制头" 换成 "高速道路控制头",无需改动主干网络。

MLP 是什么?

MLP 是「Multi-Layer Perceptron,多层感知机 」的缩写,也是你之前问的 Transformer、MLLM、VLA、端到端自动驾驶里最基础、最核心、出镜率最高的组件没有之一 ,所有你聊到的这些大模型里,全都是标配 MLP 的,先给你结论:✅ 一句话理解 :MLP 就是多层的神经网络(全连接网络) ,核心作用是:对提取好的特征做「非线性的精细化加工」,把简单特征揉成复杂特征,把特征变成最终的输出(比如转向角度、刹车力度)。


一、先搞懂:MLP 的本质 & 基础结构(超级简单)

MLP 是深度学习里最基础的神经网络结构 ,属于「全连接神经网络 (FC) 」的升级版,只有「一层全连接」叫单层感知机,≥2 层全连接 + 激活函数 ,就叫多层感知机(MLP)

✅ 核心组成(3 个部分,缺一不可)

  1. 输入层 :接收上游传过来的特征向量(比如 Transformer 的注意力输出、CNN/ViT 提取的图像特征、激光雷达的点云特征)
  2. 隐藏层多层的全连接层 + 非线性激活函数 (ReLU/GELU/Sigmoid),这是 MLP 的核心,也是模型能拟合复杂规律的关键
  3. 输出层 :也是全连接层,把加工后的特征,映射成任务需要的结果(比如自动驾驶的「转向角、油门、刹车」,分类任务的「类别概率」)

✅ 为什么 MLP 是「灵魂」?------ 非线性的意义

你可以把特征理解成「做菜的食材」:

  • 没有 MLP / 只有线性层:只能做「凉拌菜」,食材简单拼合,只能拟合简单规律(比如 "看到红灯就刹车" 这种简单规则)
  • 有了 MLP 的非线性:能做「满汉全席」,把食材(特征)翻炒、调味、组合,拟合复杂的非线性规律(比如 "雨天 + 弯道 + 前车减速,我该降多少速、打多少方向")

补充:自动驾驶里的场景全是非线性的,没有 MLP,所有模型都只能处理最简单的路况,这也是为什么所有端到端 / VLA/Transformer 模型里必带 MLP


二、你最关心的:在「Transformer / 端到端 / VLA/MLLM」里,MLP 到底在哪?做什么?

你之前问的所有概念,MLP 都在里面扮演核心角色,而且位置固定、作用统一 ,我按你熟悉的场景拆解,优先级从高到低,也是你接触最多的场景:

✅ 1. Transformer 里的 MLP(重中之重!必考必问)

Transformer 的每一个 Encoder 层、每一个 Decoder 层 ,内部都是「多头注意力模块 + MLP 模块」串联而成,这是 Transformer 的标准结构,缺一不可,两者分工明确:

📌 Transformer 双核心分工(黄金结论,记牢!)

  • 多头注意力(Multi-Head Attention) :负责 「找关联」 ------ 计算全局的特征依赖,比如图像里 "行人" 和 "车道" 的位置关系、语言里 "左转" 和 "路口" 的语义关系,提取全局关联特征
  • MLP(多层感知机) :负责 「精加工」 ------ 对注意力模块输出的「关联特征」,做逐位置的非线性变换,把这些关联特征揉得更细、更抽象,变成模型能理解的高阶特征。

而且 Transformer 里的 MLP 是固定结构Linear(升维) → GELU激活 → Linear(降维),业内也叫「Feed Forward Network (FFN) 」------ 注意:FFN ≈ MLP ,在 Transformer 里这两个词是完全等价的,你看到论文里写 FFN,就是指 MLP!

✅ 2. 端到端自动驾驶里的 MLP(核心输出组件)

端到端的核心是「原始输入(图像 / 点云 / 语言)→ 特征提取 → 动作输出(转向 / 油门 / 刹车) 」,MLP 在这个流程里出现 2 次 ,都是核心:① 特征融合阶段 :上游的 ViT/CNN/ 注意力模块提取完多模态特征后,用 MLP 做特征对齐 + 融合 ,把视觉特征、语言特征、车辆状态特征(速度 / 位置)揉成一个统一的特征向量。② 动作输出阶段(Task Header) :这是端到端的最后一步,也是你之前问的「Header / 任务头」的核心组成!

端到端的「控制头 / 动作头」,本质就是一个轻量化的 MLP ------ 输入是融合后的全局特征,输出就是自动驾驶的连续控制指令(比如转向角∈[-30°,30°],油门∈[0,1],刹车∈[0,1])。

✅ 3. MLLM/VLA 里的 MLP(跨模态桥梁)

MLLM(多模态大语言模型)、VLA(视觉语言动作模型)的核心是「跨模态对齐」,MLP 在这里的作用是做「模态转换器」

  • 视觉编码器(ViT)提取的图像特征,维度和 LLM 的语言特征维度不一样,用MLP 做线性 + 非线性映射,把视觉特征的维度对齐到语言特征的维度,实现「图文融合」。
  • VLA 的最后一步,融合后的视觉 - 语言特征,也是通过MLP 动作头输出最终的「动作指令」(机器人的关节角度、自动驾驶的控制量)。

三、关键易混概念:MLP 与 CNN/Transformer/ 全连接层 区别(你一定会遇到)

你已经学了 CNN、Transformer、MLP,很容易混淆,我用极简对比 + 通俗理解讲清楚,都是自动驾驶 / AI 里的高频考点:

✅ ① MLP vs 单层全连接层 (FC)

  • 单层 FC:只有一层线性变换,无激活函数、无非线性,只能拟合简单的线性规律,能力极弱。
  • MLP:多层 FC + 激活函数,有非线性,能拟合任意复杂的非线性规律,是 FC 的升级版。

结论:MLP ≈ 多层带激活的全连接网络

✅ ② MLP vs CNN(卷积神经网络)

两者都是特征提取器,但特征提取的逻辑完全相反,也是你之前问的「CNN 为什么会被 Transformer 取代」的补充:

  • CNN局部特征优先 → 用卷积核扫图像的局部区域,提取局部纹理 / 边缘特征,再通过堆叠扩大感受野,擅长捕捉空间局部规律(比如车道线、车辆轮廓),优点是计算快、参数量小。
  • MLP全局特征优先 → 全连接层的每一个神经元,都和上一层的所有神经元相连 ,能看到全局的特征,擅长拟合全局的非线性规律,但缺点是参数量大、容易过拟合。

自动驾驶里的搭配:CNN 提取局部视觉特征 → MLP 精加工 → 注意力找全局关联 → MLP 输出动作,完美互补!

✅ ③ MLP vs Transformer

这个是最关键的区分,很多人会误以为 Transformer 是 MLP 的升级版,其实不是:

  • Transformer :是一个「大框架 」,核心是多头注意力 + MLP 组成的堆叠模块,Transformer 的能力来自「注意力的全局关联 + MLP 的非线性加工」
  • MLP :是一个「基础组件 」,是 Transformer 这个大框架里的核心子模块,相当于「Transformer 是电脑,MLP 是 CPU」。

黄金结论:Transformer 离不开 MLP,但 MLP 可以独立存在


四、自动驾驶里的 MLP:特殊点 & 为什么必须用?

在自动驾驶的端到端 / VLA 模型里,MLP 和纯视觉 / 纯 NLP 里的 MLP 有一个关键区别 ,也是适配自动驾驶的优化:✅ 自动驾驶的 MLP 都是「轻量化 MLP 」:因为车载算力有限,不能用太深的 MLP,一般只有2-3 层隐藏层,参数量小、推理速度快,但是足够拟合「特征→动作」的非线性映射。

✅ 为什么自动驾驶必须用 MLP?

自动驾驶的核心需求是「从特征到动作的精准映射」,而驾驶行为是高度非线性的:比如同样是前方有车,雨天和晴天的刹车力度完全不同,弯道和直道的转向角度也不同。这种非线性的规律,只有 MLP 能完美拟合,没有 MLP,所有模型都只能输出死板的规则化动作,无法应对复杂路况。


五、极简总结(所有知识点浓缩,背下来就行)

  1. MLP = 多层感知机 = 多层带激活函数的全连接网络,是深度学习最基础的核心组件。
  2. MLP 的核心作用:非线性特征精加工 + 特征→任务输出的映射
  3. Transformer 里:MLP 是多头注意力的「搭档」,注意力找关联,MLP 做加工,缺一不可。
  4. 端到端自动驾驶里:MLP 是「动作头 / 控制头」的核心,最终的转向、油门、刹车,都是 MLP 输出的
  5. MLLM/VLA 里:MLP 是跨模态对齐的桥梁,也是动作输出的核心。
  6. 核心关系:CNN(局部特征) → 注意力(全局关联) → MLP(特征加工) → MLP(动作输出)。

补充:你之前问的所有概念,和 MLP 的关系(一网打尽,闭环!)

你从 Transformer→MLLM→VLA→端到端→Query→Header→MLP,所有概念串联起来,形成完整的逻辑链,这也是自动驾驶大模型的完整技术栈,记下来:

原始输入(图像 / 点云 / 语言) → CNN/ViT 提取特征 → Transformer 的多头注意力(Query/Key/Value 找全局关联) → MLP 精加工特征 → 跨模态融合 → 轻量化 MLP(Header / 动作头) → 输出自动驾驶动作指令(转向 / 油门 / 刹车)

Self-Attention(自注意力)Cross-Attention(交叉注意力)区别和联系

二者是 Transformer 架构的基石,也是 MLLM、VLA、端到端自动驾驶模型中实现特征关联的核心手段,也是 MLLM、VLA、端到端自动驾驶模型中实现 "全局关联" 和 "跨模态融合" 的关键机制。两者都基于注意力的 "Query-Key-Value" 三元组逻辑,但作用对象、场景和目标完全不同。

一、 核心定义与作用

1. Self-Attention(自注意力)

核心逻辑 :让输入序列 / 特征集合中的 每个元素,都和同一集合内的所有其他元素计算关联度 ,从而捕捉单一模态内部的全局依赖关系

  • 一句话定义同一组输入内部的注意力机制 ,让输入序列中的每个元素(如图像的 patch、句子的单词、点云的点)都能关注到序列内的其他所有元素,捕捉内部的全局依赖关系
  • 计算对象:同一组特征(比如纯图像 patch 特征、纯语言 token 特征、纯激光雷达点云特征)。

  • 通俗理解:相当于让一张图片里的每个像素 / 区域,都 "看一眼" 整张图的其他区域,搞清楚 "我和周围哪些部分有关系"。

  • 典型计算流程:

    • 对输入特征生成三组向量:Query(Q,查询)、Key(K,键)、Value(V,值);
    • 计算每个 Q 与所有 K 的相似度,得到注意力权重;
    • 用权重对 V 加权求和,得到融合全局关联的输出特征。
  • 自动驾驶场景应用

    • 输入是摄像头图像的 patch 特征 → 自注意力让 "车道线 patch" 关联 "路边行人 patch""红绿灯 patch",理解整个驾驶场景的全局结构;
    • 输入是交通规则文本 → 自注意力让 "红灯" 关联 "停车","斑马线" 关联 "礼让行人",建立规则内部的语义关联。
    • Transformer 编码器中(如 ViT 提取图像特征时,让每个 patch 关注其他 patch);
    • 自动驾驶感知环节(如从点云序列中捕捉车辆与障碍物的位置关系)。

2. Cross-Attention(交叉注意力)

核心逻辑 :让 两个不同模态 / 集合的特征,互相计算关联度 ,实现跨模态的特征对齐与融合

  • 计算对象:两组不同来源的特征(比如「图像特征」和「语言指令特征」、「激光雷达点云特征」和「车辆状态特征」)。

  • 一句话定义两组不同输入之间的注意力机制 ,让一组输入(称为 "查询侧")去关注另一组输入(称为 "键值侧"),捕捉跨输入 / 跨模态的依赖关系

  • 通俗理解:相当于让 "语言指令(比如'避开前方障碍物')" 去 "匹配" 图像里的所有区域,找到哪个区域是 "障碍物";或者让 "车辆定位特征" 去匹配高精地图特征,确定自己在地图中的位置。

  • 工作原理 :输入是两组不同的特征序列(如视觉特征序列和语言特征序列、历史状态序列和当前感知序列),其中:

    • Query 来自查询侧输入(如语言指令的特征,代表 "任务需求");
    • Key 和 Value 来自键值侧输入 (如视觉图像的特征,代表 "待检索的信息")。计算 Query 与 Key 的相似度,得到注意力权重,再对 Value 加权求和,最终输出的是查询侧基于键值侧信息优化后的特征
  • 典型计算流程:

    • 定义 参考特征 (比如语言指令特征,生成 K 和 V)和 查询特征(比如图像特征,生成 Q);
    • 用查询特征的 Q,去匹配参考特征的 K,计算注意力权重;
    • 用权重对参考特征的 V 加权求和,得到融合了跨模态信息的输出特征。
  • 自动驾驶场景应用

    • 多模态融合:用图像特征做 Q,语言指令("导航到超市")做 K/V → 交叉注意力让模型聚焦图像中与 "超市" 相关的路标;
    • 地图匹配:用激光雷达点云特征做 Q,高精地图特征做 K/V → 交叉注意力实现车辆定位与地图特征的对齐。
    • Transformer 解码器中(如机器翻译时,让目标语言关注源语言);
    • 多模态融合(如 MLLM 中让语言特征关注视觉特征、VLA 中让动作指令关注感知特征);
    • 自动驾驶的人机交互(如让车辆控制指令关注用户的自然语言需求)。

二、 优缺点对比

维度 Self-Attention(自注意力) Cross-Attention(交叉注意力)
核心优势 1. 捕捉单一模态内部的全局依赖,无需堆叠多层即可实现长距离关联;2. 不依赖输入顺序(配合位置编码),处理效率高于 RNN;3. 输出特征自带全局上下文信息,适合场景理解。 1. 实现跨模态特征对齐,是 MLLM、VLA 多模态融合的核心;2. 可以灵活指定 "参考特征" 和 "查询特征",适配不同任务需求;3. 让模型聚焦 "任务相关" 的跨模态信息,减少无关噪声。
核心缺点 1. 计算复杂度高:\(O(n^2)\)(n 为特征元素数量),输入尺寸大时(如高分辨率图像)算力开销大;2. 对噪声敏感:如果输入特征中有冗余信息,会被无差别关联;3. 缺乏先验约束:纯自注意力可能过度关注无关区域(比如天空)。 1. 依赖两组特征的质量:如果参考特征(如语言指令)模糊,对齐效果会大幅下降;2. 计算成本更高:相比自注意力多了一组特征的交互,算力消耗更大;3. 对齐难度大:不同模态的语义空间差异大(如视觉和语言),容易出现 "图文不符"。
适用场景 单一模态的全局特征建模:图像全景理解、文本语义分析、点云结构感知 跨模态的特征融合与任务对齐:视觉问答、自动驾驶多模态感知、人机语言交互

三、 工程优化方向(针对自动驾驶算力受限场景)

不管是自注意力还是交叉注意力,原始版本的算力开销都不适合车载边缘设备,因此实际应用中会做针对性优化:

  1. 稀疏注意力:只计算每个 Query 与附近 Key 的关联,把 \(O(n^2)\) 降到 \(O(n)\),适合高分辨率图像 / 点云;
  2. 分层注意力:先对特征做下采样,再计算注意力,降低元素数量;
  3. 线性注意力:通过数学变换简化注意力计算,牺牲少量精度换取速度;
  4. 轻量化交叉注意力:在自动驾驶 VLA 模型中,只保留 "语言指令 - 视觉特征" 的关键交叉路径,砍掉冗余计算。

四、 核心关联(和你之前问的概念串联)

在端到端自动驾驶 VLA 模型中,二者是协同工作的:

图像 / 点云特征 → Self-Attention 做单模态全局建模 → 语言指令特征 → Cross-Attention 做跨模态对齐 → MLP 特征加工 → 动作头输出控制指令

一段式 端到端:

经典论文:

  • Planning-oriented Autonomous Driving
  • TrackFormer: MOTR
  • MapFormer: Panoptic SegFormer
  • BEV Object Detection, Segmentation, Occupancy
  • OccFormer
  • VAD: Vectorized Scene Representation for Efficient Automous Driving
    • VAD: 认为向量化表征更符合人类的认知(对物体的在大脑中进行简化表示),优于栅格化(占内存耗资源)
  • 世界模型的工作:
    • 3DGS使用高斯球在强调对于图像的模拟能力,另一方面缺会弱化对于3D场景的描述能力。
    • Occupancy对形状的表达,天然适合做世界模型,这类的工作有:
      • Diving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Panning via World Models for Autonomous Driving
      • DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
        • CVPR 2025 华科 地平线: 核心思想:给 diffusion 加 anchors (先验)
  • 认知科学认为:人类处理信息都是用极度抽象化的信息进行的。

VLA 核心技术

VLA的工作大都是系统级的工作

  • 至少由BEV感知 +LLM两个大模块组成
  • 涉及至少图像、文本、动作三种数据模态
  • 数据编码、信息流动、特征交互是常态
  • 涉及至少VQA、planning、perception三种任务
  • 训练一定会分多个阶段

省略全部底层细节的介绍

  • 数据是何形态
  • Query如何产生
  • 维度是否对齐
  • Encoder如何做
  • Decoder如何做
  • Loss如何设计

BEV former 已过时

模型架构差不多,而护城河在于数据调得怎么样,训练策略用得好不好,后处理协同做得好不好等等一些,也包括对于这些网络架构这些技术细节钻得深不深。

Transformer: Attention is all you need

Vision Transformer (ViT)

CLIP: Contrastive Language-Image Pre-training (多模态融合从这里开始一发不可收拾)

LLaVA: Visual Instruction Tuning

ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

  • ICCV, 2025 华科,小米
  • 业内尚缺少能很好的对齐reasoning space和action space的工作
  • 因此提出一个unified的端到端模型,可以同时完成VQA和planning

采集的数据 pk 生成的数据:

采集数据更真实,但有一定的成本,特别是极端场景,雨雪雾等

生成的数据快速,但真实性不如采集的数据,可以用来做一些可行性分析,作为采集数据的指导。

相关推荐
Coder_Boy_2 小时前
Spring AI 设计模式综合应用与完整工程实现
人工智能·spring·设计模式
乾元2 小时前
当网络变成博弈场:混合云时代,如何用 AI 重构跨域链路的成本与体验平衡
运维·网络·人工智能·网络协议·安全·华为·重构
云老大TG:@yunlaoda3602 小时前
华为云国际站代理商MSGSMS主要有什么作用呢?
网络·人工智能·华为云
一瞬祈望2 小时前
⭐ 深度学习入门体系(第 6 篇): MLP 和 CNN 有什么本质区别?
人工智能·深度学习·cnn·mlp
jimmyleeee2 小时前
人工智能基础知识笔记二十九:大模型量化技术(Quantisation)
人工智能·笔记
叫我:松哥2 小时前
基于django的新能源汽车租赁推荐分析系统,包括用户、商家、管理员三个角色,协同过滤+基于内容、用户画像的融合算法推荐
python·算法·机器学习·pycharm·django·汽车·echarts
Hello.Reader2 小时前
Flink ML StandardScaler 标准化(去均值 + 除以标准差)让特征“同量纲”更好学
机器学习·均值算法·flink
xian_wwq2 小时前
【学习笔记】AI的边界
人工智能·笔记·学习
艾莉丝努力练剑2 小时前
艾莉丝努力练剑的2025年度总结
java·大数据·linux·开发语言·c++·人工智能·python