第四部分:决策规划篇——汽车的“大脑”(第8章:行为决策——车辆的“驾驶策略师”)

经过前面章节的漫长旅程,智能驾驶系统已经通过各种传感器"看清"了世界,并通过高精定位和地图精确地知道了"自己在哪"。现在,它需要回答一个关键问题:"接下来,我该怎么做?"

行为决策模块,就是车辆的**"驾驶策略师"** 或 "首席指挥官" 。它不关心方向具体转多少度、油门踩多深,而是根据当前复杂的交通场景,做出高层的、宏观的行为指令


8.1 任务:从感知到宏观指令的转化

行为决策模块的输入是:

  • 感知结果: 周围有哪些车辆、行人,他们的位置、速度、预测轨迹。

  • 定位与地图: 自车位置、当前车道、交通规则(如限速、是否可通行)。

  • 全局路径: 导航系统给出的从A到B的粗略路线。

它的输出是离散的行为指令,例如:

  • 巡航

  • 跟车

  • 换道(左/右)

  • 超车

  • 汇入车流

  • 让行

  • 通过路口

  • 停车

一个简单的例子:

  • 输入: 感知到前方有一辆慢车;定位显示我们在高速公路行车道;地图显示左侧是超车道且允许超车。

  • 决策过程: "当前行为是跟车,但前车太慢。左侧车道空闲,且规则允许。为了达到导航目的,决策:执行向左换道超车。"

  • 输出指令: 向左换道

这个指令会被传递给下一级的运动规划模块,由它去计算具体的换道路径。


8.2 基于规则的方法:有限状态机

这是最经典、最可解释、也是目前量产系统中应用最广泛的方法。

8.2.1 什么是有限状态机?

您可以把它想象成一个流程图 或一本**"如果...那么..."的驾驶操作手册**。

  • 状态: 车辆可能处于的几种离散的驾驶模式 ,如巡航跟车换道停车

  • 转移条件: 从一个状态切换到另一个状态需要满足的条件

8.2.2 FSM如何工作?

我们用一个高度简化的高速公路FSM为例:

  1. 初始状态: 巡航

    • 条件: 如果感知到前方有慢车 → 转移到 跟车 状态。

    • 条件: 如果导航要求下个路口右转 → 转移到 准备向右换道 状态。

  2. 状态: 跟车

    • 条件: 如果前车加速,距离拉开 → 转移回 巡航 状态。

    • 条件: 如果跟车时间过长,且左侧车道空闲 → 转移到 准备向左换道 状态(以超车)。

  3. 状态: 准备向左换道

    • 条件: 检查左后方安全,打转向灯,等待安全窗口。

    • 条件: 安全窗口出现 → 转移到 执行换道 状态。

    • 条件: 等待超时或情况有变 → 转移回 跟车 状态。

  4. 状态: 执行换道

    • 条件: 换道完成,进入目标车道 → 转移回 巡航 状态。

优势与局限:

  • 优势: 逻辑清晰,行为可预测,易于测试和验证,符合功能安全要求。

  • 局限: 规则需要工程师手动编写,无法处理所有未知的"长尾"场景,行为可能显得比较"机械"和"保守"。


8.3 基于预测的方法:考虑他人的未来

更高级的决策必须考虑其他交通参与者未来的可能行为。基于预测的决策模型将预测模块的输出作为关键输入。

工作原理:

  1. 预测: 系统不仅感知到旁边车道有一辆车,还预测出它有两种可能轨迹:

    • 轨迹A(概率高): 保持车道行驶。

    • 轨迹B(概率低): 向右切入本车前方。

  2. 决策: 决策器会同时考虑这两种可能性。

    • 针对轨迹A ,决策可以是加速超车

    • 但考虑到轨迹B 的潜在风险,决策器可能会选择一个更保守的策略:略微减速,保持安全距离,观察其动向

这种方法让决策更加拟人化防御性,能够更好地处理交互性强的复杂场景,比如无保护左转、匝道汇流等。


8.4 基于强化学习的方法:让AI"自学成才"

这是最具颠覆性的前沿方向。强化学习不像FSM那样需要人类教规则,它让AI智能体在与环境的交互中通过试错来自我学习最佳策略。

8.4.1 核心思想:

  • 智能体: 即自动驾驶车辆。

  • 环境: 模拟的交通场景。

  • 状态: 环境的状态,如自车、他车的位置、速度等。

  • 动作: 智能体做出的行为,如加速减速转向

  • 奖励: 环境根据智能体的动作好坏给出的分数

    • 正奖励: 安全、高效、舒适、遵守交规。(+分)

    • 负奖励: 碰撞、急刹、越线、阻塞交通。(-分)

8.4.2 学习过程:

AI在模拟器中数百万次地重复"开车"。一开始它的动作完全是随机的,会不断撞车、违章,被扣很多分。但通过复杂的神经网络,它会逐渐学到:"哦,原来在那个状态下,我选择'减速让行'而不是'强行通过',最终得到的总分更高。" 经过海量训练后,它能学会非常精妙甚至超乎人类想象的驾驶策略。

优势与挑战:

  • 优势: 潜力巨大,能处理极其复杂的交互场景,可能发现人类未曾想到的优化策略,是解决"长尾问题"的希望。

  • 挑战:

    • 安全性: 如何保证学到的策略是100%安全的?模拟器能否覆盖所有极端情况?

    • 可解释性: RL模型是个"黑箱",我们很难理解它为什么做出某个决策,这在出现事故时是致命伤。

    • 训练成本: 需要巨大的算力和海量的仿真数据。


本章小结

行为决策是智能驾驶的"战略"层面。我们介绍了三种主要技术路径:

  1. 基于规则(FSM): 可靠、可解释的"老兵",是当前量产系统的中流砥柱。

  2. 基于预测: 更加智能、拟人的"参谋",通过预判他人意图做出更优决策。

  3. 基于强化学习: 潜力无限、自学成才的"新星",代表着未来的方向,但尚未成熟。

在实际系统中,这三者常常混合使用。例如,用FSM保证基础的安全框架,在特定场景下引入预测模型进行优化,同时利用强化学习在仿真环境中不断验证和优化决策逻辑。

相关推荐
加点油。。。。几秒前
【强化学习】——策略梯度方法
人工智能·机器学习·强化学习
Epiphany.5561 分钟前
dfn序优化树上背包
算法
MicroTech20257 分钟前
微算法科技(NASDAQ MLGO)区块链混合检测模型优化确保全网防御策略一致性
科技·算法·区块链
2401_841495649 分钟前
【自然语言处理】处理 GBK 编码汉字的算法设计
人工智能·python·自然语言处理·校验·文件读写·gbk编码与解码·批量过滤
LYFlied9 分钟前
【每日算法】 LeetCode 394. 字符串解码
前端·数据结构·算法·leetcode·面试·职场和发展
董世昌4113 分钟前
break和continue的区别是什么?
java·jvm·算法
怎么全是重名14 分钟前
Survey on semantic segmentation using deep learning techniques
图像处理·人工智能·深度学习·图像分割
俊俊谢16 分钟前
【机器学习】python使用支持向量机解决兵王问题(基于libsvm库)
python·机器学习·支持向量机·svm·libsvm
老蒋新思维16 分钟前
创客匠人:工作流嵌入式智能体,重构知识变现的效率底层
大数据·服务器·人工智能·重构·创始人ip·创客匠人·知识变现