文章目录
- 一、基于规则技术架构
- 二、端到端技术架构
-
- 1、端到端技术架构简介
- 2、端到端技术架构实现形式
-
- [① 数据采集](#① 数据采集)
- [② 多模态数据融合与预处理](#② 多模态数据融合与预处理)
- [③ 主流模型架构](#③ 主流模型架构)
- [④ 三阶段训练法](#④ 三阶段训练法)
- [⑤ 总结](#⑤ 总结)
- 3、端到端技术架构优点
- 4、端到端技术架构缺点
- 三、自动驾驶的两种核心技术架构总结
-
- [1、基于规则技术架构 与 端到端技术架构 对比](#1、基于规则技术架构 与 端到端技术架构 对比)
- [2、基于规则技术 + 端到端技术 混合架构](#2、基于规则技术 + 端到端技术 混合架构)
自动驾驶的两种核心技术架构 :
- 基于规则技术架构 : 传统架构 , 采用 模块化设计 , 将复杂任务拆解为 感知、决策、规划、控制 等独立子模块 ;
javascript
传感器数据(图像/点云) -> 感知规则(识别) -> 决策规则(判断) -> 规划规则(路径) -> 控制指令(转向/加速/制动)
- 端到端技术架构 : 新架构 ( 发展未完成 ) , 直接将 传感器原始数据 映射为 车辆控制指令 的架构 ;
javascript
传感器数据(图像/点云) -> 神经网络 -> 控制指令(转向/加速/制动)
端到端技术架构 , 一端是 " 传感器原始数据 " , 另一端是 " 车辆控制指令 " ;
一、基于规则技术架构
1、基于规则技术架构简介
自动驾驶 的 基于规则技术架构 采用 模块化设计 , 将复杂任务拆解为独立子模块 :
- 感知模块 : 识别道路、障碍物、交通信号等 ;
- 决策模块 : 基于 预设规则 ( " 如果 A , 则 B " ) 生成 驾驶策略
- 规划模块 : 生成路径 和 速度曲线
- 控制模块 : 执行 转向、加速、制动 等操作
javascript
传感器数据(图像/点云) -> 感知规则(识别) -> 决策规则(判断) -> 规划规则(路径) -> 控制指令(转向/加速/制动)
可参考 Autoware Architecture 1.0 文档 : https://autowarefoundation.github.io/autoware-documentation/main/design/autoware-architecture-v1/#introduction ;

下图是 自动驾驶 基于规则技术架构 的 架构图 :

在 Node diagram 文档 https://autowarefoundation.github.io/autoware-documentation/main/design/autoware-architecture-v1/node-diagram/ 中 , 有 Autoware 的 节点图 , 可以作为开发参考 ;
- 节点图地址页面 ;

2、规则表示示例
规则表示 :
- 表示方式 : 以 " IF-THEN " 条件语句 表达 , 如 : " 如果前方障碍物距离 < 安全阈值 , 且速度 > 0 , 则紧急制动 " ;
- 场景划分 : 将 复杂环境 分解为 " 路口 " 、 " 超车 " 、 " 跟车 " 等 子场景 , 每个场景应用特定规则 ;
3、基于规则技术架构优点
基于规则技术架构 的 优点 :
- 可解释性极强 : 每步决策 都有 明确规则 对应 , 故障定位 和 调试便捷 ;
- 安全性高 : 预设安全策略 确保 已知场景行为 符合预期 , 适合 高风险场景 ;
- 可控性好 : 工程师可 精确设定 行为边界 , 符合监管 和 安全标准 ;
- 资源高效 : 无需大量 数据训练 , 在 计算资源有限平台 也能 稳定运行 ;
4、基于规则技术架构缺点
基于规则技术架构 的 缺点 :
- 场景覆盖有限 : 难以穷举所有交通场景 , 对未预设情况可能失效 ;
- 规则爆炸 : 随着场景增多 , 规则库 复杂度 指数级增长 , 易出现冲突 ;
- 适应性差 : 面对 非常规交通行为 或 道路变化 , 反应僵化 , 缺乏灵活性 ;
- 开发维护成本高 : 新场景需 人工编码规则 , 迭代周期长 ;
二、端到端技术架构
在自动驾驶 端到端 ( End-to-End ) 技术架构 中 , " 两个端 " 指的是 原始感知输入端 和 驾驶控制输出端 , 核心是通过 单一神经网络 直接完成 " 输入 ->输出 " 的映射 , 跳过传统模块化架构中的 感知、决策、规划 等中间拆分环节 ;
- 原始感知输入端 : 又称为 " 原始传感器输入端 ( Raw Sensor Input End ) " 或 " 输入端 ( Input End ) " , 模型接收的、未经过人工预处理的多模态传感器原始数据 , 是自动驾驶系统 " 感知世界 " 的起点 , 无需 先通过 独立感知模块 提取特征 ( 如 " 识别行人 " " 检测车道线 " ) , 直接 将 原始信号 送入神经网络 ;
- 驾驶控制输出端 : 又称为 " 控制指令输出端 ( Control Command Output End ) " 或 " 输出端 ( Output End ) " , 模型直接输出的、可被 车辆执行层 ( ECU ) 直接解析 的 驾驶控制指令 , 是 自动驾驶系统 " 操控车辆 " 的终点 , 无需中间决策模块生成 " 行为指令 " ( 如 : " 减速 " , " 左转 " ) , 直接映射为具体的执行参数 ;
1、端到端技术架构简介
自动驾驶 端到端技术架构 : 是一种直接将 传感器原始数据 映射为 车辆控制指令 的架构 , 借助 深度学习 , 用 大规模数据 训练 神经网络 , 让系统 直接 将 摄像头、激光雷达 等 传感器采集 的 原始数据 , 映射为 方向盘转角、油门刹车力度 等控制指令 ; 整个过程中 , 感知、决策、控制 等环节不再拆分 , 而是 由 模型 隐式完成 内部处理 , 无需 人工设置 中间规则 ; 比如特斯拉 FSD V12 就采用该架构 , 直接通过原始传感器数据输出驾驶控制指令 ;
- 泛化能力 : 泛化能力突出 , 该架构能 从 海量数据 中 捕捉到人类难以总结的 隐含规律 , 应对复杂交通场景更灵活
- 黑箱问题 : 决策过程 是 神经网络 内部 复杂的 参数运算 , 出现事故时 难以 追溯具体原因 , 不便于调试和监管 ; 同时 对 训练数据 依赖极高 , 若数据中 稀有场景 覆盖不足 , 模型在这类场景下可能出现 决策失误 , 且数 据的采集、标注成本 也十分高昂 ;
输入一堆 点云数据、图片数据、雷达数据 就直接给出 转向、加速、减速 指令 , 中间完全不知道发生了什么 , 有一定的 " 炼丹 " 科技 ;
端到端技术架构 核心特点是 :
- 单模型全链路处理 : 使用 单一神经网络 完成 " 感知 -> 决策 -> 控制 " 全流程 , 无需人工划分模块 ;
- 数据直接驱动 : 从 摄像头、激光雷达 等 传感器获取原始数据 , 直接输出 方向盘转角、油门 / 刹车指令 ;
- 系统级优化 : 梯度信号 可从 控制端 直接回传至 输入层 , 实现全局最优 ;
javascript
传感器数据(图像/点云) -> 神经网络 -> 控制指令(转向/加速/制动)
参考 Autoware 2.0 Architecture 文档 : https://autowarefoundation.github.io/autoware-documentation/main/design/autoware-architecture-v2/

Autoware 2.0 Architecture 文档 中给出了 端到端技术架构 的 架构图 如下 :

轨迹生成器 ( Generator ) : 所有的 传感器数据 都要送入到 " 轨迹生成器 " 中 , 这是一个很灵活的 轨迹生成模块 , 轨迹生成器 指任何能够 输出行驶轨迹的模块 , 它可以是以下一种或多种形式 :
- 基于规则的 规划器 , 利用 感知数据 和 地图信息 经过 感知、决策、规划、控制 等规则生成 指令 ;
- 采用 原始传感器 输入数据 的 端到端模型 ( E2E Models ) ;
- 学习型规划器 ( learned planners ) 或 采样型规划器 ( sampling-based planners ) ;
轨迹选择器 ( Selector ) : 轨迹选择器 接收候选轨迹后 , 将执行以下操作 :
- 安全校验 ( 例如 : 是否符合交通规则、是否处于可行驶区域 )
- 基于场景上下文 或 驾驶策略 对 候选轨迹 进行排序 , 并选择最优方案 ;
2、端到端技术架构实现形式
端到端技术架构实现形式 :
- 显式端到端 : 保留 感知 和 规划模块 , 但通过 联合训练 确保一致性
- 隐式端到端 ( 纯端到端 ) :
- 特斯拉 FSD V12 : 8 个摄像头原始像素直接输入 , 48 个神经网络处理 , 输出控制指令
- 百度 UniAD : 将 检测、跟踪、建图、轨迹预测、规划 集成到一个 Transformer 框架
- VLA 架构 ( 视觉 - 语言 - 动作 ) :
- 理想 AD Max : 端到端 + VLM (视觉语言模型) , 系统 1 处理常规场景 , 系统 2 (VLM) 辅助长尾场景 ;
① 数据采集
数据采集策略 :
- 车队数据采集 : 特斯拉利用全球 700 万辆车 每天产生相当于 500 年 驾驶时长的数据 , 通过 " 影子模式 " (Shadow Mode) 在 不干预驾驶 的情况下收集 ;
- 高质量驾驶员筛选 : 筛选出 " 五星级司机 " 标准 (评分> 90 分 , 仅 3% 车主达标) , 优先使用优质数据 进行训练 ;
- 场景针对性采集 :
- 正常驾驶 : 城市、高速、乡村道路 ;
- 极端场景 : 暴雨、夜间、逆光、施工区域 ;
- 交互场景 : 无保护左转、行人横穿、加塞 ;
② 多模态数据融合与预处理
| 处理环节 | 具体操作 | 目的 |
|---|---|---|
| 时间同步 | 校准 摄像头、LiDAR、IMU、CAN 数据时间戳 | 确保 多传感器 数据时空一致性 |
| 数据清洗 | 剔除异常值、填补缺失数据 | 提高数据质量和完整性 |
| 坐标转换 | 将不同传感器数据转换到统一坐标系 | 便于融合处理 |
| 图像预处理 | 动态分辨率调整、增强、标准化 | 提升模型感知能力 |
| 特征提取 | BEV (鸟瞰图) 转换、时序特征构建 | 增强 模型 对 空间和时间理解 |
③ 主流模型架构
主流模型架构 :
- BEV+Transformer : 将 多摄像头图 像转换为 鸟瞰图 , 再用 Transformer 建模时序关系 , 解决遮挡问题和长距离感知
- Occupancy 网络 : 预测 3D 空间 中 每个点的占用状态 , 替代传统 3D 检测 , 提高复杂场景感知能力 ;
- VLM (视觉 - 语言模型) 融合 : 结合 大语言模型 增强 场景理解 和 决策能力 , 如商汤 " 开悟 " 世界模型 ;
④ 三阶段训练法
三阶段训练法 :
| 阶段 | 训练方法 | 核心目标 | 技术细节 |
|---|---|---|---|
| 阶段一 : 模仿学习 (冷启动) | 行为克隆 (BC)监督学习 | 建立基本驾驶能力学习人类驾驶模式 | 使用高质量标注数据训练周期 : 3-5 epochs损失函数 : MSE / 交叉熵 |
| 阶段二 : 强化学习 (核心提升) | 与世界模型交互策略优化 | 增强泛化能力掌握未见过场景提升安全性 | 在仿真环境中设计多维度奖励函数训练周期 : 10-20 epochs |
| 阶段三 : 模型蒸馏 (部署准备) | 知识迁移模型压缩 | 生成轻量化模型适配车端硬件 | 将云端大模型知识蒸馏到小模型精度损失 < 5% |
⑤ 总结
端到端模型 训练是一个 " 数据驱动 + 策略优化 + 持续迭代 " 的 系统工程 , 其核心在于 :
- 海量数据 : 海量 高质量 数据 是基础 , 需覆盖各种场景 , 尤其是 长尾危险情况 ;
- 训练策略 : 多阶段训练策略 是关键 , 模仿学习 快速启动 , 强化学习 突破瓶颈 , 蒸馏实现 高效部署 ;
- 优化策略 : 精心设计的 损失函数 和 优化策略 是模型性能的保障 , 决定了从感知到决策的准确性 ;
- 世界模型 : 世界模型 与 强化学习 结合是未来趋势 , 可大幅降低数据需求并提升模型上限 ;
- 技术边界 : 当前 端到端模型 在复杂城市环境中仍需 依赖 部分规则辅助决策 , 完全摒弃规则 的 纯端到端系统 (如特斯拉 FSD V12) 在 极端场景 下的 可靠性 仍有安全风险 , 这也是行业持续研究的方向 ;
3、端到端技术架构优点
端到端技术架构优点 :
- 结构简化 : 省去 模块间 数据传递 , 减少 信息损耗 和 延迟 , 响应速度提升 ;
- 泛化能力强 : 能处理未见过的新场景 , 捕捉人类 难以总结的规律 ;
- 部署效率高 : 单一模型 可快速适配新区域 , 降低地图 更新成本 ;
- 类人驾驶 : 模仿人类 " 看路开车 " 的直觉决策 , 驾驶行为更自然流畅
4、端到端技术架构缺点
端到端技术架构缺点 :
- 黑箱特性 : 决策过程 难以解释 , 事故调查 和 责任认定 困难 ;
- 数据依赖 : 需海量标注 数据训练 , 长尾场景覆盖不足易失误 ;
- 安全挑战 : 极端场景 可靠性 不如规则系统 , 部分车型在雨雾天气识别率仅 78% ;
端到端技术 向 神经网络 输入图片像素数据 , 如果此时车前有个人 , 输出的可能是 撞上去 / 停车 / 绕行 , 如果撞到人就是模型训练不到位 , 准确率低 , 改进模型即可 ;
三、自动驾驶的两种核心技术架构总结
1、基于规则技术架构 与 端到端技术架构 对比
基于规则技术架构 与 端到端技术架构 对比 :
| 对比维度 | 端到端技术 | 基于规则技术 |
|---|---|---|
| 架构核心 | 单一神经网络全链路处理 | 模块化设计 , 多环节串联 |
| 决策方式 | 数据驱动 , 自主学习模式 | 规则驱动 , 预设 " 如果 - 则 " 逻辑 |
| 系统复杂度 | 模型结构简单 , 但训练复杂 | 模块多但逻辑清晰 , 调试容易 |
| 适用场景 | 复杂城市道路、非结构化环境 | 高速巡航、结构化道路、安全关键场景 |
| 典型代表 | 特斯拉 FSD V12+、小鹏 XNGP | 早期 ADAS 系统、部分 L2 辅助驾驶 |
| 最新趋势 | 与规则系统融合 , 形成混合架构 | 作为安全兜底 , 辅助端到端系统 |
2、基于规则技术 + 端到端技术 混合架构
纯端到端 或 纯基于规则 的方案均 难以满足 高阶自动驾驶 的全面需求 , 将 基于规则技术 + 端到端技术 进行融合 , 采用二者的混合架构 :
- 保障安全 : 将 紧急刹车、避让行人 等 安全优先级高 的功能 用规则兜底 , 保障基础安全 ;
- 复杂场景 : 端到端模型 负责复杂场景决策 , 处理城市道路拥堵、复杂路口会车等复杂场景的灵活决策 , 以此兼顾系统的安全性与智能性 ;
- 快慢系统 : " 快系统 + 慢系统 " 结合 , 快系统 ( 高帧率 ) 处理常规驾驶 , 慢系统 (低帧率) 处理 复杂场景 ;
端到端 和 基于规则 并非 对立选择 , 而是 互补关系 ;
- 端到端 提供更强的 泛化能力 和 自然驾驶体验 ,
- 规则系统 保障 安全性 和 可解释性 ;
未来自动驾驶技术将持续 融合两者优势 , 推动行业向更安全、更智能的方向发展 ;
py
print("Hello World!")
dao_phrases = [
"基于规则技术架构",
"端到端技术架构"
]
print("\n自动驾驶的两种核心技术架构:")
for i, phrase in enumerate(dao_phrases, 1):
print(f"{i}. {phrase}")