扩散模型在自动驾驶路径规划中的技术演进与产业格局

文章目录

- 一、扩散模型的核心优势：从"单选题"到"多选题"
- - [1 什么是扩散模型？](#1 什么是扩散模型？)
  - [2 为什么扩散模型适合路径规划？](#2 为什么扩散模型适合路径规划？)
  - [3 多模态决策：从"单选题"到"多选题"](#3 多模态决策：从"单选题"到"多选题")
  - [4 零样本泛化：从"死记硬背"到"灵活应变"](#4 零样本泛化：从"死记硬背"到"灵活应变")
  - [5 预测与规划的联合建模：从"盲人开车"到"全局优化"](#5 预测与规划的联合建模：从"盲人开车"到"全局优化")
- [二、扩散模型 vs 强化学习：技术路线对比](#二、扩散模型 vs 强化学习：技术路线对比)
- 三、技术路线的三次演进
- - [1. 早期探索：从纯噪声生成](#1. 早期探索：从纯噪声生成)
  - [2. 当前主流：截断扩散策略](#2. 当前主流：截断扩散策略)
  - [3. 最新突破：扩散桥策略](#3. 最新突破：扩散桥策略)
- 四、产业格局：主要技术路线
- 五、未来展望：与世界模型的深度融合

一、扩散模型的核心优势：从"单选题"到"多选题"

1 什么是扩散模型？

扩散模型（Diffusion Model）是一类生成式模型，其核心思想源于非平衡热力学中的扩散过程。它通过两个相反的步骤来学习数据分布：

前向过程（Forward/Noising Process）：从真实数据（如人类驾驶轨迹）开始，逐步添加高斯噪声，经过 T 步后，数据完全变成纯噪声。这个过程是固定的马尔可夫链：

其中 βt 是每一步的噪声调度参数，控制添加噪声的强度。

反向过程（Reverse/Denoising Process）：训练一个神经网络（通常是U-Net或Transformer）来逆转这个噪声添加过程。从纯噪声开始，模型逐步去噪，最终生成与真实数据分布一致的样本：

在自动驾驶路径规划中，输入是历史轨迹、地图信息、周围车辆状态等条件，输出是未来的自车轨迹。模型学习的是在给定条件下，"人类司机会怎么开"这一条件概率分布 p(轨迹∣观测) 。

2 为什么扩散模型适合路径规划？

传统方法（如强化学习、模仿学习）的核心局限在于输出空间的约束：

关键差异：扩散模型不是学习"最优动作是什么"，而是学习"所有合理动作的概率分布"。这让它天然适合自动驾驶中充满不确定性的决策场景。

3 多模态决策：从"单选题"到"多选题"

在复杂路口，人类驾驶员的行为本身就是多模态的------左转、直行、右转都可能是合理选择。扩散模型通过以下机制实现多模态生成：

概率分布建模：扩散模型通过训练学习到的不是单一轨迹，而是整个轨迹空间上的概率密度。在采样时，从不同的随机种子出发，可以生成多样化的轨迹候选：

其中 c 是条件（BEV特征、历史轨迹等），N 是采样数量。

条件引导机制：通过分类器引导（Classifier Guidance）或无分类器引导（Classifier-Free Guidance, CFG），可以在采样过程中注入安全约束。例如：

碰撞避免引导：对与其他车辆轨迹相交的候选施加低概率惩罚
舒适度引导：对急加速/急刹车的候选施加低概率惩罚
车道保持引导：对偏离车道线的候选施加低概率惩罚

这使得系统能够在生成阶段就考虑安全性，而非事后筛选。

评估与筛选：生成 N 条候选轨迹后，通过轻量级的评估网络（如基于规则的碰撞检测、舒适度评分、进度评分）进行排序，选择最优轨迹执行。这种"生成-评估"范式（Gen-Drive采用的范式）将生成能力与安全约束解耦，既保留了扩散模型的创造力，又确保了最终输出的安全性。

4 零样本泛化：从"死记硬背"到"灵活应变"

传统模仿学习和强化学习高度依赖训练数据的覆盖范围。当遇到训练集中从未见过的场景组合（如"行人+锥桶+静止车辆"同时在路口出现），传统系统容易失效。

扩散模型的泛化能力来源于其概率生成本质：

组合泛化：扩散模型学习的是场景元素的独立表征和交互规则，而非固定场景模板。因此，即使从未见过"行人+锥桶+静止车辆"的组合，模型也能基于对"行人避让"、"锥桶绕行"、"静止车辆处理"的独立理解，生成合理的组合应对策略。
连续空间插值：扩散模型在潜在空间中学习的是连续的概率分布，而非离散的决策边界。这意味着对于介于训练样本之间的"中间状态"，模型能够自然地插值生成合理行为，而非硬性地匹配到最近邻样本。

研究表明，条件扩散模型在处理未见过的元素组合时，泛化能力显著优于基于确定性映射的传统方法。

5 预测与规划的联合建模：从"盲人开车"到"全局优化"

传统做法通常将预测（预测周围车辆未来轨迹）和规划（自车路径决策）分开处理：

预测模块先输出周围车辆的确定性轨迹（或少数几条候选）规划模块基于这些预测结果，优化自车轨迹
这种串联式结构存在级联误差问题：如果预测模块对某辆车的意图判断错误（如误判为直行实为右转），规划模块会基于错误假设一路优化，最终导致不安全行为。

扩散模型可以实现端到端的联合建模：

通过将自车轨迹与周围所有车辆的轨迹纳入同一个生成框架，模型能够：

显式建模交互：自车的决策会影响周围车辆的反应（如变道导致后车减速），反之亦然。联合建模让这种交互在生成阶段就被考虑。
避免级联误差：不再依赖确定性的"他车预测→自车规划"流水线，而是同时生成所有参与者的合理行为组合，选择全局最优的联合轨迹。
社会合规性：学习人类驾驶中的隐性规则（如让行、路权分配），生成符合交通礼仪的交互行为。

Diffusion Planner和TransDiffuser等方案正是基于这一思想，通过Diffusion Transformer联合建模周车运动与自车行为，实现全局协同优化。

二、扩散模型 vs 强化学习：技术路线对比

三、技术路线的三次演进

1. 早期探索：从纯噪声生成

早期方案让规划器从纯随机噪声开始迭代去噪，虽想象空间大，但每帧需数十步迭代，实时性差，且容易生成不合理轨迹。

2. 当前主流：截断扩散策略

地平线联合华中科技大学在CVPR 2025提出DiffusionDrive ，引入截断扩散策略，使规划器从带有物理合理性的锚点分布开始迭代，而非纯噪声。该方法将去噪步数压缩至2步，在NVIDIA 4090上达到45 FPS的实时推理速度，相比传统扩散策略加速约10倍，在NAVSIM上取得88.1 PDMS 。

3. 最新突破：扩散桥策略

博世团队提出BridgeDrive ，用扩散桥（Diffusion Bridge）替代传统截断扩散，解决了截断扩散在训练与推理之间的理论不对称问题，在Bench2Drive闭环评估基准上将成功率提升7.72%，且兼容高效ODE求解器，适用于实时部署。

四、产业格局：主要技术路线

五、未来展望：与世界模型的深度融合

扩散模型在自动驾驶路径规划中的热度，折射出行业从"规则驱动"和"模仿驱动"向"生成式决策"演进的趋势。最值得期待的方向是与世界模型的深度融合------在虚拟世界中无限生成极端驾驶场景进行训练，让系统在实际上路前"见过"无数复杂情况。

当搭载扩散模型路径规划的自动驾驶系统能够在复杂路况下自然选出最合理的应对方案，我们离真正的无人驾驶将更近一步。对于自动驾驶从业者而言，理解扩散模型不仅是技术升级，更是一种产品思维的转变：系统不再只是"遵守规则的工具"，而是具备生成式决策能力的"智能体"。