本推文介绍了智能交通领域顶级期刊IEEE Transactions on Intelligent Transportation Systems(简称为TITS)的一篇论文《StyleFormer:Multi-Agent Joint Trajectory Prediction and Planning in Urban Environments With Driving Style Awareness》。该论文提出了一种基于驾驶风格感知的轨迹预测与规划框架StyleFormer,旨在解决自动驾驶车辆在城市复杂交互环境中难以准确理解周围车辆行为意图的问题。StyleFormer通过无监督方法对短期驾驶风格进行自动分类,并采用向量化、车辆中心的场景表示方式,将地图特征、车辆状态与驾驶风格信息相融合。模型基于Transformer的注意力机制建模多智能体间的交互与意图,实现周围车辆未来轨迹的联合预测与自动驾驶车辆的多模态轨迹生成。为进一步提升规划轨迹的安全性与可行性,StyleFormer引入了基于扩散模型的轨迹优化方法,能够在不依赖规则后处理的情况下生成符合驾驶风格偏好且动力学可行的轨迹。实验验证表明,StyleFormer在Argoverse 1与nuScenes两大真实世界数据集上均取得了优越的预测与规划性能,开环轨迹预测指标显著领先,展现出在多样化城市交通场景中优秀的泛化能力与实时部署潜力。该研究不仅推动了驾驶风格感知在轨迹生成中的深度融合,也为自动驾驶在复杂交互环境中的安全、高效与可解释决策提供了新颖而有效的解决方案。
原文链接:https://ieeexplore.ieee.org/document/11128935
本推文由龚裕涛撰写,审核为王一鸣和黄忠祥
期刊介绍

IEEE Transactions on Intelligent Transportation Systems(TITS)是智能交通领域顶级期刊之一,涵盖了现代交通系统所有科学和技术方面的基础和应用研究,包括但不限于智能交通系统的传感、通信、控制、规划、设计和实施。它涵盖了交通系统的理论、方法、建模和模拟、实验和评估,包括多式联运、地面运输交通、协调的多辆车、基础设施和其他道路使用者(行人、骑自行车者等)及其相互作用。
一、研究背景和主要贡献
随着自动驾驶技术的深入发展,自动驾驶汽车(AV)在城市复杂交通场景中与人类驾驶车辆的共融共存面临关键挑战。人类驾驶员能够本能地感知并适应周围车辆多样的驾驶风格(如激进或谨慎),从而做出高效、安全的决策。然而,如图1,现有AV系统通常难以有效推断和理解这种短期行为风格,导致规划策略往往过于保守,影响了交通流畅性与通行效率。当前,基于深度学习的轨迹预测与规划方法,虽然能通过注意力机制捕捉车辆间交互,但大多忽略了驾驶风格对行为和意图的根本影响,且预测与规划模块常被分离设计,限制了系统在动态环境中的整体适应性与决策质量。因此,需要一种能够统一建模驾驶风格、交互意图,并实现联合预测与个性化规划的一体化框架,以提升自动驾驶在真实复杂城市场景中的性能。

图1驾驶风格对比图
论文主要贡献:
(1) 提出驾驶风格感知的联合预测与规划统一框架
论文创新性地提出了一个名为StyleFormer的端到端多智能体联合轨迹预测与规划框架,将轨迹预测与车辆规划统一为未来的轨迹生成任务。该框架首次系统地整合了短期驾驶风格识别、基于Transformer的交互意图推理以及扩散模型轨迹优化,显著增强了自动驾驶系统在复杂动态交通中对周围车辆行为意图的理解能力和自车规划的适应性、安全性与可解释性。
(2) 无监督短期驾驶风格自动标注与车辆中心场景编码
设计了一种基于无监督聚类(K-means)的短期驾驶风格自动标注方法,从大规模车辆轨迹数据中提取速度、加速度、横摆角速率等多维度特征,将驾驶风格客观地归类为谨慎(Cautious)、适中(Moderate)与激进(Aggressive)三类。进而,提出了一种向量化的车辆中心区域表示法,将地图元素、历史轨迹及驾驶风格标签统一编码,增强了模型对相对运动与行为模式的感知效率与旋转不变性。
(3) 层级Transformer网络与目标导向的交互建模
构建了一个层级Transformer架构,包含车辆中心区域编码器、全局交互器和解码器。该架构通过"智能体-邻居"、"智能体-道路"及全局交互模块分层捕获局部与长程的空间依赖,并引入目标导向掩码(Goal-Oriented Mask)使模型在解码时优先关注自车的目标终点,从而在复杂交互中实现更可靠、更贴合驾驶意图的多模态轨迹与风格预测。
(4) 基于驾驶风格偏好的轨迹选择与扩散优化规划器
在规划阶段,提出了一个包含轨迹选择与优化两阶段的StyleFormer规划器。首先,规划器可根据预设的驾驶风格偏好(如激进模式)从多模态预测结果中筛选最匹配的轨迹。随后,引入一个基于去噪扩散过程的轨迹优化模块,通过前向加噪与反向去噪迭代精修轨迹,并同时施加道路边界约束与车辆动力学约束(如最大加速度、曲率),确保最终输出轨迹的平滑性、物理可行性及安全性。
(5) 大规模实验验证与卓越的泛化性能
在Argoverse 1和nuScenes两大权威真实世界数据集上进行了全面的开环与闭环实验验证。开环预测结果在minADE、minFDE、MR等关键指标上均优于多种前沿基线模型。在CARLA仿真平台的闭环测试中,规划模型在复杂交互场景下达到了96.33%的成功率,且经过扩散优化后碰撞率与脱轨率显著降低。消融实验进一步证实了驾驶风格感知、目标导向机制及各交互模块对性能提升的关键作用,充分证明了框架的有效性、鲁棒性与强大的泛化能力。
二、研究方法
2.1框架概览
如图2所示,StyleFormer是一个专为复杂城市多智能体交互场景设计的驾驶风格感知轨迹预测与联合规划框架。其核心创新在于通过显式建模驾驶风格来解决传统方法难以理解多样化人类驾驶行为的问题。该框架采用端到端结构,首先通过无监督聚类方法对历史轨迹进行短期驾驶风格(谨慎、适中、激进)自动标注;随后构建一个向量化的车辆中心区域表示,将地图车道线、历史轨迹点及驾驶风格标签统一编码;进而通过一个层级Transformer网络(包含车辆中心区域编码器、全局交互器与解码器)提取融合了风格信息的时空交互特征,实现对所有周围车辆未来轨迹的多模态联合预测;最后,规划器根据自车驾驶风格偏好从预测结果中选择候选轨迹,并利用基于扩散模型的优化模块进行精修,输出平滑、可行且安全的最终规划轨迹。整个框架通过统一建模风格、交互与意图,在提升预测精度的同时,实现了安全、高效且个性化的运动规划。

图2 StyleFormer框架概览
2.2无监督驾驶风格分类与车辆中心编码
如图3,该模块旨在为模型提供可解释的驾驶行为语义标签。首先,从短时间窗口(如3秒)的历史轨迹中,自动提取速度均值/标准差、加速度均值/标准差、横摆角速度均值/标准差等十维特征。随后,采用K-means聚类算法,在无人工标注的情况下,将驾驶风格客观地归类为谨慎、适中与激进三类。三类风格在特征分布上差异显著:激进风格速度与正向加速度更高;谨慎风格负向加速度与横摆角速度变化更大。这些风格标签与原始的轨迹及高精地图信息一同,被输入到一个车辆中心区域编码器中。该编码器以目标车辆为原点建立局部坐标系,将其感知范围内的邻居车辆轨迹、车道线多边形及各自的风格标签进行向量化表示与旋转对齐,从而形成一种对车辆朝向和位置变化鲁棒的场景表示,为后续的交互推理奠定基础。

图3无监督驾驶风格分类与车辆中心编码示意图
2.3层级Transformer与目标导向交互建模
如图4,该模块是模型的核心,负责从编码后的场景中推理交互与意图。它采用分层结构:首先,车辆中心区域编码器通过"智能体---邻居"注意力、"智能体---道路"注意力及时间Transformer,分别建模局部车辆交互、车辆与道路结构的关联以及时序依赖,输出每个车辆的局部嵌入。接着,全局交互器通过计算车辆对之间的相对位姿嵌入,并利用注意力机制融合所有车辆的局部嵌入,从而捕获场景中长程的、全局的交互关系。最后,解码器将局部与全局嵌入、以及驾驶风格嵌入进行融合。为了增强规划的目的性,模型引入了目标导向掩码(Goal-Oriented Mask),在解码时强制模型关注自车在未来预测时间终点(Goal)的状态,从而引导生成更符合目标意图的轨迹。该层级设计确保了模型既能把握精细的局部动态,又能理解宏观的交通流,并通过目标信息增强了预测的可靠性。

图4层次Transformer网络与目标导向交互建模示意图
2.4风格偏好轨迹选择与扩散优化规划器
如图5,该模块负责将多模态预测转化为最终的自车规划轨迹。首先,轨迹选择器根据预设的驾驶风格偏好进行操作:例如,若选择"激进"风格,则从模型为自车预测的K条多模态轨迹中,挑选出被分类为"激进"且概率最高的一条作为候选。若无匹配风格,则选择整体概率最高的轨迹(最佳模式)。随后,候选轨迹被送入基于扩散模型的优化器。该优化器模拟一个迭代去噪过程:先在前向过程中对轨迹添加噪声,再在反向过程中,通过一个学习网络逐步去噪,同时在每一步都施加道路边界约束(使轨迹贴近车道中心)和车辆动力学约束(如加速度、曲率上限)。如图5所示,经过扩散优化后,原始的预测轨迹(可能不平滑或轻微越界)被修正为一条完全可行、平滑且安全的最终规划轨迹,显著提升了实际部署中的安全性。

图5风格偏好轨迹选择与扩散优化规划器示意图
三、实验结果
3.1实验设置
(1) 数据集
该论文采用两个权威的大规模真实世界自动驾驶数据集进行综合性能评估。
**(a)Argoverse 1:**包含在美国匹兹堡和迈阿密城市街道采集的超过30万条轨迹片段,采样频率为10Hz。其场景包含丰富的交叉口交互、并线、转弯等复杂情况,是衡量城市环境预测与规划性能的核心基准。
**(b)nuScenes:**包含在美国波士顿和新加坡采集的1000个驾驶场景,采样频率为2Hz。其数据多样性高,包含多类交通参与者与复杂天气条件,用于验证模型在不同城市形态与感知频率下的泛化能力。
实验设计上,除了标准的开环轨迹预测评估,论文还从数据集中筛选出大量交互密集型场景(如无保护左转、多车汇入)进行开环规划测试,并在CARLA仿真器中构建300个闭环测试场景,以全面评估规划器的安全性与成功率。
(2) 评价指标
该论文的预测任务采用以下三个核心指标。
**(a)minADE:**计算与真实轨迹最接近的那条预测轨迹(在K个模态中)的平均点对点位移误差,反映多模态预测的整体精度。
**(b)minFDE:**计算最接近真实轨迹的那条预测轨迹在终点处的位移误差,反映对最终位置的预测准确性。
**(c)MR(Miss Rate):**当所有K条预测轨迹的终点与真实终点的距离都大于2.0米时,计为一次"Miss"。该指标衡量模型完全丢失目标的风险。
3.2对比实验
如表1所示,在Argoverse 1数据集的开环预测任务中,StyleFormer在感知范围为50米时,取得了最佳的minADE(0.670)、minFDE(1.011)和MR(0.100)结果,其性能全面超越了包括DenseTNT、LaneGCN、Scene Transformer等在内的多种基于Transformer、GNN的先进预测模型。这表明融入驾驶风格信息能更准确地捕捉交互意图。特别值得注意的是,StyleFormer在参数规模(Param:684K)远小于部分对比模型的情况下达到最优性能,展现出极高的计算效率。
在nuScenes数据集上,StyleFormer同样在minADE指标上领先(K=10时达0.903),进一步证明了其强大的泛化能力。与专注于目标预测的方法(如Goal-LBP)相比,StyleFormer在MR指标上表现接近,但在轨迹整体形状精度(minADE)上优势明显,说明其生成的全轨迹更贴合真实运动模式。
如图6,又通过8个典型城市交通场景的轨迹可视化,直观展示模型在不同交互场景下的风格适配能力、避障安全性与轨迹合理性,是对定量结果的关键补充。
表1在Argoverse 1运动预测数据集上与SOTA方法的定量对比


图6 StyleFormer模型开环规划性能的核心定性验证图
3.3消融实验
如表2针对StyleFormer的Agent---邻居交互、Agent---道路交互与全局交互三大模块开展消融实验,在Argoverse 1数据集上评估模块移除对预测性能(minADE、minFDE、MR)与推理速度(Speed)的影响。结果显示,保留全部模块的完整模型性能最优,推理速度57毫秒,印证三大模块的协同互补作用。移除全局交互时性能损失最显著(MR升至0.135、minADE升至0.762),虽推理速度略快至52毫秒,但准确性下降远超效率提升,凸显其对长程交通动态建模的关键价值;移除Agent-邻居或Agent-道路交互仅导致中等性能下降(minADE分别升至0.731、0.703,MR分别升至0.117、0.108),且推理速度均为54毫秒,说明二者为局部预测基础但存在功能互补。此外,所有架构变体推理速度均在52-57毫秒,证明模块设计兼顾实时性,最终证实"局部-全局协同的层级化交互"是StyleFormer架构的核心优势。
表2 网络架构消融实验分析

四、总结
该论文针对自动驾驶车辆在城市复杂交互中难以理解人类多样化驾驶风格、从而导致规划保守或失准的关键挑战,提出了一种新颖的驾驶风格感知联合预测与规划框架StyleFormer。论文的核心创新在于将短期驾驶风格作为可解释的语义变量,无缝融入一个端到端的轨迹生成管道。通过无监督风格自动标注、车辆中心层级Transformer网络以及基于扩散模型的轨迹优化,StyleFormer实现了对周围车辆意图的更准确推理,并为自车生成了安全、平滑且符合个性化偏好(谨慎/适中/激进)的规划轨迹。大量实验表明,StyleFormer在Argoverse 1和nuScenes两大数据集上的预测精度显著领先,在CARLA闭环仿真中取得了高达96.33%的成功率。该框架不仅推动了行为语义与运动生成的深度融合,也为构建更人性化、更可信赖的自动驾驶系统提供了坚实的技术路径。