经过前面章节的漫长旅程,智能驾驶系统已经通过各种传感器"看清"了世界,并通过高精定位和地图精确地知道了"自己在哪"。现在,它需要回答一个关键问题:"接下来,我该怎么做?"
行为决策模块,就是车辆的**"驾驶策略师"** 或 "首席指挥官" 。它不关心方向具体转多少度、油门踩多深,而是根据当前复杂的交通场景,做出高层的、宏观的行为指令。
8.1 任务:从感知到宏观指令的转化
行为决策模块的输入是:
-
感知结果: 周围有哪些车辆、行人,他们的位置、速度、预测轨迹。
-
定位与地图: 自车位置、当前车道、交通规则(如限速、是否可通行)。
-
全局路径: 导航系统给出的从A到B的粗略路线。
它的输出是离散的行为指令,例如:
-
巡航 -
跟车 -
换道(左/右) -
超车 -
汇入车流 -
让行 -
通过路口 -
停车
一个简单的例子:
-
输入: 感知到前方有一辆慢车;定位显示我们在高速公路行车道;地图显示左侧是超车道且允许超车。
-
决策过程: "当前行为是
跟车,但前车太慢。左侧车道空闲,且规则允许。为了达到导航目的,决策:执行向左换道以超车。" -
输出指令:
向左换道。
这个指令会被传递给下一级的运动规划模块,由它去计算具体的换道路径。
8.2 基于规则的方法:有限状态机
这是最经典、最可解释、也是目前量产系统中应用最广泛的方法。
8.2.1 什么是有限状态机?
您可以把它想象成一个流程图 或一本**"如果...那么..."的驾驶操作手册**。
-
状态: 车辆可能处于的几种离散的驾驶模式 ,如
巡航、跟车、换道、停车。 -
转移条件: 从一个状态切换到另一个状态需要满足的条件。
8.2.2 FSM如何工作?
我们用一个高度简化的高速公路FSM为例:
-
初始状态:
巡航-
条件: 如果感知到前方有慢车 → 转移到
跟车状态。 -
条件: 如果导航要求下个路口右转 → 转移到
准备向右换道状态。
-
-
状态:
跟车-
条件: 如果前车加速,距离拉开 → 转移回
巡航状态。 -
条件: 如果跟车时间过长,且左侧车道空闲 → 转移到
准备向左换道状态(以超车)。
-
-
状态:
准备向左换道-
条件: 检查左后方安全,打转向灯,等待安全窗口。
-
条件: 安全窗口出现 → 转移到
执行换道状态。 -
条件: 等待超时或情况有变 → 转移回
跟车状态。
-
-
状态:
执行换道- 条件: 换道完成,进入目标车道 → 转移回
巡航状态。
- 条件: 换道完成,进入目标车道 → 转移回
优势与局限:
-
优势: 逻辑清晰,行为可预测,易于测试和验证,符合功能安全要求。
-
局限: 规则需要工程师手动编写,无法处理所有未知的"长尾"场景,行为可能显得比较"机械"和"保守"。
8.3 基于预测的方法:考虑他人的未来
更高级的决策必须考虑其他交通参与者未来的可能行为。基于预测的决策模型将预测模块的输出作为关键输入。
工作原理:
-
预测: 系统不仅感知到旁边车道有一辆车,还预测出它有两种可能轨迹:
-
轨迹A(概率高): 保持车道行驶。
-
轨迹B(概率低): 向右切入本车前方。
-
-
决策: 决策器会同时考虑这两种可能性。
-
针对轨迹A ,决策可以是
加速超车。 -
但考虑到轨迹B 的潜在风险,决策器可能会选择一个更保守的策略:
略微减速,保持安全距离,观察其动向。
-
这种方法让决策更加拟人化 和防御性,能够更好地处理交互性强的复杂场景,比如无保护左转、匝道汇流等。
8.4 基于强化学习的方法:让AI"自学成才"
这是最具颠覆性的前沿方向。强化学习不像FSM那样需要人类教规则,它让AI智能体在与环境的交互中通过试错来自我学习最佳策略。
8.4.1 核心思想:
-
智能体: 即自动驾驶车辆。
-
环境: 模拟的交通场景。
-
状态: 环境的状态,如自车、他车的位置、速度等。
-
动作: 智能体做出的行为,如
加速、减速、转向。 -
奖励: 环境根据智能体的动作好坏给出的分数。
-
正奖励: 安全、高效、舒适、遵守交规。(+分)
-
负奖励: 碰撞、急刹、越线、阻塞交通。(-分)
-
8.4.2 学习过程:
AI在模拟器中数百万次地重复"开车"。一开始它的动作完全是随机的,会不断撞车、违章,被扣很多分。但通过复杂的神经网络,它会逐渐学到:"哦,原来在那个状态下,我选择'减速让行'而不是'强行通过',最终得到的总分更高。" 经过海量训练后,它能学会非常精妙甚至超乎人类想象的驾驶策略。
优势与挑战:
-
优势: 潜力巨大,能处理极其复杂的交互场景,可能发现人类未曾想到的优化策略,是解决"长尾问题"的希望。
-
挑战:
-
安全性: 如何保证学到的策略是100%安全的?模拟器能否覆盖所有极端情况?
-
可解释性: RL模型是个"黑箱",我们很难理解它为什么做出某个决策,这在出现事故时是致命伤。
-
训练成本: 需要巨大的算力和海量的仿真数据。
-
本章小结
行为决策是智能驾驶的"战略"层面。我们介绍了三种主要技术路径:
-
基于规则(FSM): 可靠、可解释的"老兵",是当前量产系统的中流砥柱。
-
基于预测: 更加智能、拟人的"参谋",通过预判他人意图做出更优决策。
-
基于强化学习: 潜力无限、自学成才的"新星",代表着未来的方向,但尚未成熟。
在实际系统中,这三者常常混合使用。例如,用FSM保证基础的安全框架,在特定场景下引入预测模型进行优化,同时利用强化学习在仿真环境中不断验证和优化决策逻辑。