第四部分：决策规划篇——汽车的“大脑”（第8章：行为决策——车辆的“驾驶策略师”）

经过前面章节的漫长旅程，智能驾驶系统已经通过各种传感器"看清"了世界，并通过高精定位和地图精确地知道了"自己在哪"。现在，它需要回答一个关键问题："接下来，我该怎么做？"

行为决策模块，就是车辆的**"驾驶策略师"** 或 "首席指挥官" 。它不关心方向具体转多少度、油门踩多深，而是根据当前复杂的交通场景，做出高层的、宏观的行为指令。

行为决策模块的输入是：

它的输出是离散的行为指令，例如：

一个简单的例子：

这个指令会被传递给下一级的运动规划模块，由它去计算具体的换道路径。

这是最经典、最可解释、也是目前量产系统中应用最广泛的方法。

8.2.1 什么是有限状态机？

您可以把它想象成一个流程图 或一本**"如果...那么..."的驾驶操作手册**。

8.2.2 FSM如何工作？

我们用一个高度简化的高速公路FSM为例：

初始状态： 巡航
- 条件： 如果感知到前方有慢车 → 转移到 跟车 状态。
- 条件： 如果导航要求下个路口右转 → 转移到 准备向右换道 状态。
状态： 跟车
- 条件： 如果前车加速，距离拉开 → 转移回 巡航 状态。
- 条件： 如果跟车时间过长，且左侧车道空闲 → 转移到 准备向左换道 状态（以超车）。
状态： 准备向左换道
- 条件： 检查左后方安全，打转向灯，等待安全窗口。
- 条件： 安全窗口出现 → 转移到 执行换道 状态。
- 条件： 等待超时或情况有变 → 转移回 跟车 状态。
状态： 执行换道
- 条件： 换道完成，进入目标车道 → 转移回 巡航 状态。

优势与局限：

更高级的决策必须考虑其他交通参与者未来的可能行为。基于预测的决策模型将预测模块的输出作为关键输入。

工作原理：

预测： 系统不仅感知到旁边车道有一辆车，还预测出它有两种可能轨迹：
- 轨迹A（概率高）： 保持车道行驶。
- 轨迹B（概率低）： 向右切入本车前方。
决策： 决策器会同时考虑这两种可能性。
- 针对轨迹A ，决策可以是加速超车。
- 但考虑到轨迹B 的潜在风险，决策器可能会选择一个更保守的策略：略微减速，保持安全距离，观察其动向。

这种方法让决策更加拟人化 和防御性，能够更好地处理交互性强的复杂场景，比如无保护左转、匝道汇流等。

这是最具颠覆性的前沿方向。强化学习不像FSM那样需要人类教规则，它让AI智能体在与环境的交互中通过试错来自我学习最佳策略。

8.4.1 核心思想：

智能体： 即自动驾驶车辆。
环境： 模拟的交通场景。
状态： 环境的状态，如自车、他车的位置、速度等。
动作： 智能体做出的行为，如加速、减速、转向。
奖励： 环境根据智能体的动作好坏给出的分数。
- 正奖励： 安全、高效、舒适、遵守交规。（+分）
- 负奖励： 碰撞、急刹、越线、阻塞交通。（-分）

8.4.2 学习过程：

AI在模拟器中数百万次地重复"开车"。一开始它的动作完全是随机的，会不断撞车、违章，被扣很多分。但通过复杂的神经网络，它会逐渐学到："哦，原来在那个状态下，我选择'减速让行'而不是'强行通过'，最终得到的总分更高。" 经过海量训练后，它能学会非常精妙甚至超乎人类想象的驾驶策略。

优势与挑战：

优势： 潜力巨大，能处理极其复杂的交互场景，可能发现人类未曾想到的优化策略，是解决"长尾问题"的希望。
挑战：
- 安全性： 如何保证学到的策略是100%安全的？模拟器能否覆盖所有极端情况？
- 可解释性： RL模型是个"黑箱"，我们很难理解它为什么做出某个决策，这在出现事故时是致命伤。
- 训练成本： 需要巨大的算力和海量的仿真数据。

本章小结

行为决策是智能驾驶的"战略"层面。我们介绍了三种主要技术路径：

在实际系统中，这三者常常混合使用。例如，用FSM保证基础的安全框架，在特定场景下引入预测模型进行优化，同时利用强化学习在仿真环境中不断验证和优化决策逻辑。