智能交通顶刊TITS论文分享|如何利用驾驶感知世界模型实现无信号灯路口自动驾驶?

本推文介绍了智能交通领域顶级期刊IEEE Transactions on Intelligent Transportation Systems(简称为TITS)的一篇论文《Integrating Driving-Aware World Model With MPC for Autonomous Driving at Unsignalized T-Intersections》。该论文提出了一种集成了驾驶感知世界模型与模型预测路径积分控制的端到端自动驾驶框架,旨在解决自动驾驶车辆在无信号灯T型路口等复杂交互场景中,因物理模型失配和环境表征冗余导致的决策安全性与稳定性问题。驾驶感知世界模型利用空间先验和评分网络自适应重加权Vision Transformer的图像块嵌入,生成紧凑且任务相关的潜在状态。模型采用增量式潜在动力学模型预测状态转移,并引入不确定性感知损失加权机制平衡多目标训练。控制端采用强化学习策略引导的模型预测路径积分控制采样,并结合人工势场增强安全性。实验表明,该方法在CARLA仿真环境的无信号灯T型路口场景中,任务成功率比标准模型预测路径积分控制提高了66.7%,显著降低了碰撞率与车道偏离度。

原文链接:https://ieeexplore.ieee.org/document/11175583

本推文由龚裕涛撰写,审核为王一鸣和黄忠祥。

期刊介绍

IEEE Transactions on Intelligent Transportation Systems(TITS)是智能交通领域顶级期刊之一,涵盖了现代交通系统所有科学和技术方面的基础和应用研究,包括但不限于智能交通系统的传感、通信、控制、规划、设计和实施。它涵盖了交通系统的理论、方法、建模和模拟、实验和评估,包括多式联运、地面运输交通、协调的多辆车、基础设施和其他道路使用者(行人、骑自行车者等)及其相互作用。

一、研究背景和主要贡献

尽管自动驾驶技术发展迅速,但在无信号灯路口等复杂场景的部署仍面临巨大挑战。如图1所示,这类场景具有高动态性、多参与者不确定性及潜在冲突风险等特点,对自动驾驶系统的感知与规划能力提出了极高要求。传统模型预测控制依赖显式物理模型,在复杂交互场景中易出现模型失配问题,而现有世界模型方法虽能从数据中学习潜在动力学,但所学习的表征往往包含大量与任务无关的背景特征,导致下游控制策略出现不稳定现象。

图1无信号灯T型路口示意图

论文主要贡献:

(1)提出了一种新的端到端自动驾驶框架

构建了驾驶感知世界模型与强化学习引导的模型预测路径积分控制相结合的端到端自动驾驶框架,实现复杂交通场景下的高效、鲁棒控制。

(2)空间自适应 Token 重加权表征模型

在表征模型中引入空间自适应Token重加权机制,利用多尺度空间先验引导视觉Transformer架构,通过评分网络动态调整图像块嵌入的权重,使模型能精准聚焦车辆、车道线等任务相关区域,有效抑制无关背景噪声。

(3)增量式潜在动力学模型

为提升预测的稳定性与准确性,采用增量式潜在动力学模型,该模型预测潜在状态的增量而非完整的下一时刻状态,显著缓解长时域预测中的误差累积问题,增强复杂动态环境下的适应性。

(4)不确定性感知损失加权机制

提出基于同方差不确定性的动态损失加权机制,通过可学习的对数尺度参数,动态平衡奖励预测、值估计和状态一致性等多个训练目标,避免手动调参的繁琐流程,加速模型收敛。

5 )强化学习引导采样与人工势场增强的控制器

在控制阶段,利用训练好的强化学习策略网络初始化模型预测路径积分控制的采样分布,大幅提高采样效率;同时在奖励函数中引入人工势场量化交互风险,进一步提升规划轨迹的安全性和收敛性。

二、研究方法

2.1 框架概览

本文提出了一种新的端到端自动驾驶框架。如图2所示,该框架由驾驶感知世界模型与模型预测路径积分控制器两大核心部分深度耦合、协同工作,形成从环境感知到控制执行的完整闭环。框架的输入为自动驾驶车辆采集的连续三帧前视图像,这些高维视觉数据首先进入驾驶感知世界模型的表征模块,通过高效多尺度注意力模块提取包含像素级显著性信息的空间先验,再经评分网络动态调整视觉Transformer的图像块嵌入权重,最终编码为紧凑且聚焦任务核心的潜在状态,有效滤除道路背景等无关冗余信息。模型预测路径积分控制器则以该潜在状态为基础,启动多轮迭代优化流程:首先利用预先训练好的强化学习策略网络生成初始

动作分布,大幅提升采样针对性与效率;随后从该分布中采样得到大量候选控制序列,通过驾驶感知世界模型的潜在动力学模型进行虚拟轨迹推演,预测每个序列在规划时域内的状态演化过程,同时由奖励模型结合人工势场计算各轨迹的风险代价---其中人工势场通过障碍物车辆场、车道线场和道路边界场量化车辆与周边交通元素的交互风险,为轨迹安全性提供量化依据。控制器根据轨迹推演结果和风险代价评分,迭代更新动作分布参数,逐步聚焦于更优的控制序列,经过预设次数的迭代后,从最终分布中采样得到最优控制序列,并将当前时刻的控制指令(加速度和转向角)发送至车辆执行,完成与环境的交互。整个过程中,驾驶感知世界模型的价值模型还会为轨迹评估提供预期回报估计,进一步优化控制决策,而所有交互数据(状态、动作、奖励、下一状态)会被存入经验回放缓冲区,用于模型的持续迭代训练,确保框架在复杂动态场景中的适应性与鲁棒性。

图2提出框架的概览图

2.2 空间自适应表征模型

为解决普通视觉Transformer缺乏空间归纳偏置且难以捕捉关键驾驶特征的问题,如图3所示,该模块首先通过高效多尺度注意力模块提取包含像素级显著性图的空间先验;随后,评分网络根据这些先验为每个Token计算重要性评分,并对图像块嵌入进行重加权。这种设计使模型能够精准聚焦关键区域,显式增强对车辆和道路结构的感知,同时借助视觉Transformer的自注意力机制捕捉长程依赖关系。

图3表征模型结构图

2.3 增量式潜在动力学模型

传统潜在动力学模型直接映射下一时刻的完整状态,在复杂动态环境中易出现过拟合或欠拟合问题。驾驶感知世界模型引入残差连接设计,将任务转化为预测潜在状态的增量()。这种方法聚焦于平滑的状态变化,不仅简化学习难度,还增强梯度流动,显著提升长时域预测的稳定性。

2.4 不确定性感知损失加权

为在端到端训练中平衡表征、动力学、奖励和价值估计等多个任务,模型采用基于不确定性的自动加权策略。通过引入可训练的对数尺度参数捕捉各任务的同方差不确定性,并利用Softmax将其归一化为任务权重。这种机制允许模型根据任务难度动态调整关注点,确保多目标优化的鲁棒收敛。

2.5 RL 引导采样与风险感知奖励

模型预测路径积分控制器的采样过程由随机最大熵强化学习策略引导,该策略在潜在空间中与世界模型联合训练。为量化风险,研究构建了包含障碍物场、车道线场和道路边界场的人工势场。人工势场值被直接集成到模型预测路径积分控制的奖励函数中,使生成的轨迹在追求通行效率的同时,能自动避开高风险区域。

三、实验结果

3.1 实验设置

(1)数据集与环境

实验在CARLA仿真器中进行,场景设定为Town 1的无信号灯T型路口。为了模拟真实的复杂交互,场景中引入了多辆具有随机速度(4-8m/s)和随机出发时间的障碍车辆,迫使自车必须进行动态博弈和避让。

(2)评价指标

采用五个核心指标评估性能:

成功率 **(Success Rate):**无碰撞到达目的地的比例。

碰撞率 (Collision Rate):发生碰撞的比例。

车道偏离度 **(Deviation):**轨迹偏离车道中心的平均距离。

风险值 **(Risk Value):**基于APF的平均风险评分。

计算时间 **:**生成单步控制指令的平均耗时。

3.2 对比实验

如表1所示,在无信号灯T型路口场景下,本文提出的DAWM+MPPI方法取得了99.0%的卓越成功率,而标准的MPPI-sim(即使拥有全知视角)成功率仅为32.3%,SAC算法为67.3%。在安全性方面,该方法的碰撞率仅为0.7%,远低于SAC(25.7%)和MPPI-sim(67.7%),且保持了最低的风险值和合理的计算时间(14.9ms),证明了其在实时控制中的高效性与安全性。

表1性能指标对比

如图4所示的轨迹可视化进一步直观展示了模型优势:在面对障碍车时,基线MPPI容易陷入局部最优导致碰撞,而本文方法生成的轨迹平滑、稳定,且能精准保持在车道中心。

图4轨迹与控制输入对比图

3.3 消融实验

为了验证各模块的有效性,论文进行了详细的消融研究,如表2,移除空间重加权,成功率下降至89.7%,碰撞率上升至7.7%,证明了空间注意力对提取关键特征的重要性。移除空间先验(EMA),成功率下降至84.7%,说明先验知识对引导注意力的必要性。移除增量预测,成功率大幅跌至60.7%,证实了残差设计对动力学稳定性的关键作用。移除动态权重调整.成功率降至71.7%,表明自动平衡多任务损失对模型训练至关重要。

表2消融实验结果

四、总结

该论文针对无信号灯路口这一自动驾驶难点场景,提出了一种创新的端到端解决方案。通过集成空间自适应表征、增量式动力学预测和不确定性感知训练,驾驶感知世界模型能够精准构建驾驶环境的"思维模型"。结合强化学习引导的模型预测路径积分控制器与人工势场,该框架在保证实时性的同时,实现了极高的通行成功率和安全性。实验结果表明,该方法在复杂交互场景下的表现显著优于现有的基于模型或无模型的强化学习基线,为复杂城市环境下的自动驾驶控制提供了新的技术路径。

相关推荐
lisw052 小时前
氛围炒股概述!
大数据·人工智能·机器学习
hjs_deeplearning2 小时前
文献阅读篇#16:自动驾驶中的视觉语言模型:综述与展望
人工智能·语言模型·自动驾驶
爱喝可乐的老王3 小时前
PyTorch深度学习参数初始化和正则化
人工智能·pytorch·深度学习
杭州泽沃电子科技有限公司6 小时前
为电气风险定价:如何利用监测数据评估工厂的“电气安全风险指数”?
人工智能·安全
Godspeed Zhao7 小时前
自动驾驶中的传感器技术24.3——Camera(18)
人工智能·机器学习·自动驾驶
顾北129 小时前
MCP协议实战|Spring AI + 高德地图工具集成教程
人工智能
wfeqhfxz25887829 小时前
毒蝇伞品种识别与分类_Centernet模型优化实战
人工智能·分类·数据挖掘
中杯可乐多加冰9 小时前
RAG 深度实践系列(七):从“能用”到“好用”——RAG 系统优化与效果评估
人工智能·大模型·llm·大语言模型·rag·检索增强生成
珠海西格电力科技10 小时前
微电网系统架构设计:并网/孤岛双模式运行与控制策略
网络·人工智能·物联网·系统架构·云计算·智慧城市