我自己的原文哦~ https://blog.51cto.com/whaosoft/12765612
#SIMPL
用于自动驾驶的简单高效的多智能体运动预测基准
原标题:SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving
论文链接:https://arxiv.org/pdf/2402.02519.pdf
代码链接:https://github.com/HKUST-Aerial-Robotics/SIMPL
作者单位:香港科技大学 大疆
论文思路:
本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线(SIMPL)。与传统的以代理为中心(agent-centric) 的方法(精度高但需要重复计算)和以场景为中心(scene-centric) 的方法(精度和通用性受到影响)不同,SIMPL 可以为所有相关交通参与者提供实时、准确的运动预测。为了提高准确性和推理速度,本文提出了一种紧凑而高效的全局特征融合模块,该模块以对称方式执行定向消息传递,使网络能够在单次前馈传递中预测所有道路使用者的未来运动,并减轻视点移动导致的精度损失。此外,本文研究了在轨迹解码中使用 Bernstein basis polynomials 进行连续轨迹参数化,允许在任何所需时间点评估状态及其高阶导数,这对于下游规划任务很有价值。作为强大的基线,与其他最先进的方法相比,SIMPL 在 Argoverse 1 和 2 运动预测基准上表现出极具竞争力的性能。此外,其轻量级设计和低推理延迟使 SIMPL 具有高度可扩展性,并有望用于现实世界的机载部署。
网络设计:
周围交通参与者的运动预测对于自动驾驶汽车至关重要,尤其是下游决策和规划模块,因为准确及时的意图和轨迹预测将显着提高安全性和乘坐舒适性。
对于基于学习的运动预测,最重要的主题之一是上下文表示。早期的方法通常将周围场景表示为多通道鸟瞰图像 [1]--[4]。相比之下,最近的研究越来越多地采用矢量化场景表示[5]-[13],其中使用带有地理坐标的点集或多段线(polylines) 来标注位置和几何形状,从而提高保真度并扩大感受野。然而,对于光栅化和矢量化表示,都存在一个关键问题:我们应该如何为所有这些元素选择合适的参考系?一种直接的方法是描述共享坐标系(以场景为中心)内的所有实例,例如以自动驾驶车辆为中心的坐标系,并直接使用坐标作为输入特征。这使我们能够在一次前馈传递中对多个目标代理进行预测 [8, 14]。然而,使用全局坐标作为输入,通常会在单个前馈传递中对多个目标代理进行预测 [8, 14]。然而,使用全局坐标作为输入(通常会在很大范围内变化)将大大加剧任务的固有复杂性,导致网络性能下降和对新场景的适应性有限。为了提高准确性和鲁棒性,一种常见的解决方案是根据目标代理的当前状态对场景上下文进行归一化处理 [5, 7, 10]-[13](以代理为中心)。这意味着必须对每个目标代理重复执行归一化过程和特征编码,从而获得更好的性能,但代价是冗余计算。因此,有必要探索一种能够有效地编码多个目标的特征,同时保持对视角(perspective) 变化的鲁棒性的方法。
对于运动预测的下游模块,例如决策和运动规划,不仅需要考虑未来位置,还需要考虑航向、速度和其他高阶导数。例如,周围车辆的预测航向在塑造未来时空占用方面发挥着关键作用,这是确保安全和稳健的运动规划的关键因素[15, 16]。此外,在不遵守物理约束的情况下独立预测高阶量可能会导致预测结果不一致[17, 18]。例如,尽管速度为零,但它可能会产生位置位移,从而导致规划模块混乱。
本文提出了用于自动驾驶系统的 SIMPL(简单高效的运动预测基线),解决了现实车载应用中多智能体轨迹预测的关键问题。首先,本文引入以实例为中心的场景表示,然后引入 symmetric fusion Transformer(SFT),从而能够在单次前馈传递中对所有代理进行有效的轨迹预测,同时保留视点不变属性带来的准确性和鲁棒性。与最近基于对称上下文融合的其他工作[19]-[21]相比,所提出的SFT明显更简单、更轻量级且更易于实现,使其适合机载部署。
其次,本文引入了一种基于 Bernstein basis polynomial(也称为 Bezier curve)的预测轨迹的新颖参数化方法。这种连续表示确保了平滑性,并能够在任何给定时间点轻松评估精确状态及其高阶导数。本文的实证研究表明,与估计 monomial basis polynomials 的系数相比,学习预测 Bezier curves 的控制点更加有效且数值稳定。
最后,所提出的组件被很好地集成到一个简单而高效的模型中。本文在两个大型运动预测数据集上评估了所提出的方法[22, 23],实验结果表明,尽管 SIMPL 具有简化的设计,但与其他最先进的方法相比仍具有很强的竞争力。更重要的是,SIMPL通过较少的可学习参数和较低的推理延迟实现了高效的多智能体轨迹预测,而没有牺牲量化性能,这对于真实世界的机载部署来说是充满希望的。本文还强调,作为一个强大的基线,SIMPL 具有出色的可扩展性。简洁的架构便于与最新的运动预测进展直接整合,为进一步提高整体性能提供了机会。
图 1:复杂驾驶场景中多智能体运动预测的图示。本文的方法能够实时地同时为所有相关代理生成合理的假设。自车和其他车辆分别以红色和蓝色显示。根据时间戳使用渐变颜色来可视化预测轨迹。请参考附带的视频了解更多示例。
图 2:SIMPL 示意图。本文利用尽可能简单的网络架构来证明其有效性。语义实例的局部特征由简单的编码器处理,而实例间特征则保留在相对位置嵌入中。多模态轨迹预测结果由运动解码器在提出的 symmetric feature Transformer 之后生成。
图 3:相对位姿计算示意图。
图 4:所提出的 L 层 symmetric fusion Transformer (SFT) 的图示。实例 tokens 和相对位置嵌入(RPE)在每个SFT层中都会循环更新。
图 5:2D septic Bezier curve(左)。
实验结果:
总结:
本文提出了一种简单高效的自动驾驶多智能体运动预测基线。利用所提出的 symmetric fusion Transformer,所提出的方法实现了高效的全局特征融合,并保持了针对视点移动的鲁棒性。基于 Bernstein basis polynomials 的连续轨迹参数化提供了与下游模块更高的兼容性。在大规模公共数据集上的实验结果表明,SIMPL 在模型大小和推理速度方面更具优势,同时获得与其他最先进方法相同水平的精度。
#DeepPointMap
本文提出了一种统一的架构DeepPointMap,既能实现高效的内存使用的地图表示,又能实现准确的多尺度定位任务(如里程计和闭环检测)。一举解决定位和地图构建问题
论文链接:https://arxiv.org/pdf/2312.02684.pdf
SLAM是机器人和自动驾驶领域中的一个基本问题,旨在在探索环境的同时重建地图并估计机器人在其中的位置。激光雷达的点云数据被广泛应用于捕捉环境的复杂三维结构。然而,现有的SLAM方法要么依赖于密集的点云数据以实现高精度定位,要么使用通用的描述符来减小地图的大小。这两个方面似乎存在冲突。因此,我们提出了一种统一的架构,DeepPointMap(DPM),在这两个方面都具有出色的优势。
提出一种名为DeepPointMap的深度学习框架,用于解决LiDAR SLAM中的定位和地图构建问题。传统的LiDAR SLAM方法要么依赖于密集的点云数据以实现高精度定位,要么使用通用的描述符来减小地图的大小。然而,这两个方面似乎存在冲突。为了解决这个问题,我们提出了一种统一的架构,即DeepPointMap,既能实现高效的内存使用的地图表示,又能实现准确的多尺度定位任务(如里程计和闭环检测)。
创新
本研究的创新性主要体现在以下几个方面:
- 统一的神经网络描述符:本研究提出了DeepPointMap(DPM)框架,其中包括DPM编码器和DPM解码器两个神经网络。DPM编码器能够从点云数据中提取高度代表性且稀疏的神经描述符,实现了对环境的高效编码。与传统的手工设计特征相比,这些神经描述符既能够减小地图的内存占用,又能够保持高精度的定位和重建能力。
- 多尺度匹配和注册:DPM解码器能够基于神经描述符进行多尺度的匹配和注册,包括里程计和闭环检测。与其他基于神经描述符的方法相比,DPM解码器能够在统一的框架下完成多个SLAM子任务,实现了定位精度、内存效率、地图保真度和实时处理的统一优化。
- 多智能体协作SLAM:本研究将DPM框架扩展到多智能体协作SLAM领域。每个智能体都维护自己的SLAM系统,并在本地进行里程计和闭环检测。通过将观测数据进行合并和优化,实现了全局一致性的轨迹估计和地图重建。这在通信带宽有限的多智能体系统中具有重要意义。
方法
该框架包括两个神经网络:DPM编码器和DPM解码器。DPM编码器从点云中提取高度代表性和稀疏的神经描述符,实现了内存高效的地图表示和准确的多尺度定位任务。DPM解码器基于这些神经描述符进行多尺度匹配和注册。与其他神经描述符方法不同的是,DPM描述符可以统一地用于SLAM任务的多个子任务,具有出色的定位精度、内存效率、地图保真度和实时处理能力。
.1 DPM编码器
DPM解码器
DPM解码器用于预测两个描述符云之间的变换关系,它包括四个部分:(1)描述符级变换块,用于融合两个输入描述符云之间的深度相关特征;(2)相似性头,用于计算两个描述符云之间的对应关系;(3)偏移头,用于预测描述符云之间的偏移量;(4)旋转头,用于预测描述符云之间的旋转矩阵。这些部分共同工作,实现了描述符云之间的匹配和配准,从而实现了定位和闭环检测等多尺度的定位任务。
.3 训练
在训练DeepPointMap时,作者使用了几个不同的数据集。其中包括SemanticKITTI、KITTI-360和MulRan。作者还使用了KITTI-Carla数据集进行训练。训练集和测试集的划分是根据帧数的比例进行的,大约是6:4的比例。在训练过程中,作者使用了绝对姿态误差(APE)来评估预测轨迹的全局准确性。在定位准确性方面,DeepPointMap与其他6种最新的里程计和SLAM方法进行了比较,包括KISS-ICP、LeGO-LOAM、SC-LeGO-LOAM、MULLS、CT-ICP和GeoTransformer。作者还进行了转移实验,将DeepPointMap在KITTI-360和KITTI-Carla上训练,并直接在SemanticKITTI上评估其性能。在内存效率方面,DeepPointMap相对于原始点云、Voxel Hashmap和Mesh等方法能够节省大约50%至70%的内存。最后,作者还进行了多智能体合作SLAM实验,展示了DeepPointMap在多智能体场景下的优越性能。
.4 损失函数
训练DeepPointMap模型时使用了以下损失函数和策略:
此外,还使用了数据增强和课程学习策略来提高模型的性能。数据增强策略包括随机遮挡,用于模拟激光雷达扫描受到遮挡的情况。课程学习策略逐渐增加描述符云的规模,从简单到复杂的场景进行训练,以逐步学习大规模注册任务的能力。
实验结果
定位准确性:与六种最新的里程计和SLAM方法进行比较,包括KISS-ICP、LeGO-LOAM、SC-LeGO-LOAM、MULLS、CT-ICP和GeoTransformer。在SemanticKITTI、KITTI-360和MulRan数据集上比较了DeepPointMap与这些方法的定位准确性。结果显示,DeepPointMap在不同数据集上都能取得类似的定位准确性,并且在大规模地图上表现出更好的性能。
内存效率:评估了DeepPointMap的内存效率,并与其他常用方法进行比较,包括原始点云、Voxel Hashmap和Mesh。结果显示,DeepPointMap相比其他方法能够节省高达70%的内存空间。
多智能体合作SLAM实验:将DeepPointMap扩展到多智能体合作SLAM任务中,模拟了真实世界的多智能体合作SLAM场景。在SemanticKITTI数据集上选择了三个子序列,并将它们分配给三个独立的智能体进行重建。实验结果显示,DeepPointMap能够成功重建多智能体观测到的点云,并保持全局一致性。
通过这些实验验证了DeepPointMap在定位准确性、内存效率和多智能体合作SLAM方面的优越性能。
根据这项研究,后续可能的研究方向有哪些?
根据这项研究,可能的后续研究方向包括但不限于以下几个方面:
- 网络结构改进:可以进一步改进DeepPointMap的网络结构,以提高其性能和效率。例如,可以探索更复杂的神经网络架构或引入注意力机制来提取更具代表性的神经描述符。
- 多模态融合:可以将深度学习方法与其他传感器数据(如相机图像)进行融合,以提高SLAM系统的鲁棒性和准确性。通过融合多种传感器数据,可以更好地理解环境并实现更准确的定位和地图重建。
- 鲁棒性改进:可以研究如何提高DeepPointMap在复杂环境和动态场景下的鲁棒性。例如,可以探索如何处理遮挡、动态物体和不完整的点云数据,以提高系统的鲁棒性和适应性。
- 实时性优化:可以进一步优化DeepPointMap的计算效率,以实现实时的SLAM系统。可以通过模型压缩、硬件加速或并行计算等方法来减少计算复杂度,提高系统的实时性能。
- 多智能体合作SLAM:可以进一步研究如何在多智能体合作SLAM中应用DeepPointMap。可以探索如何实现智能体之间的信息共享和协作,以实现全局一致性的地图重建和定位。
这些是可能的后续研究方向,通过进一步的研究和实验,可以进一步提升DeepPointMap的性能和应用范围。
总结
我们提出了一种基于深度学习的LiDAR SLAM框架,称为DeepPointMap(DPM)。该框架包括两个神经网络:DPM编码器和DPM解码器。与其他神经描述符方法不同的是,DPM描述符可以统一地用于SLAM任务的多个子任务,具有出色的定位精度、内存效率、地图保真度和实时处理能力。DeepPointMap在定位精度、地图重建质量和内存消耗方面取得了新的最优结果。此外,该框架还在多智能体协作SLAM方面展示了其灵活性和潜力。因此,DeepPointMap为LiDAR SLAM领域的发展提供了一种有效的解决方案。
#P-Mapnet
在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一,现有的算法在远距离范围下的感知表现依然较差。为此,我们提出了P-MapNet,其中的"P"强调我们专注于融合地图先验以提高模型性能。具体来说,我们利用了SDMap和HDMap中的先验信息:一方面,我们从OpenStreetMap中提取了弱对齐的SDMap数据,并将其编码为单独的条件分支输入。尽管改输入与实际HD Map存在弱对齐的问题,我们基于Cross-attention机制的架构能够自适应地关注SDMap骨架,并带来显著的性能提升;另一方面,我们提出了一种用MAE来捕捉HDMap的先验分布的refine模块,该模块有助于让生成的HD Map更符合实际Map的分布,有助于减小遮挡、伪影等影响。我们在nuScenes和Argoverse2数据集上进行了广泛的的实验。
图 1
总结来说我们的贡献如下:
(1)我们的SDMap先验能够提升在线地图生成性能,包含了栅格化(最多可提高18.73 mIoU)和矢量化(最多可提高8.50 mAP)两种地图表示。
(2)我们的HDMap先验能够将地图感知指标提升最多6.34%。
(3)P-MapNet可以切换到不同的推理模式,以在精度和效率之间进行权衡。
(4)P-MapNet是一个远距离HD Map生成的解决方案,对于较远的感知范围能够带来更大的改进。我们的代码和模型已公开发布在https://jike5.github.io/P-MapNet/。
相关工作回顾
(1)在线地图生成
传统的HD Map的制作主要包含SLAM建图、自动标注、人工标注等步骤[1],这导致了HD Map的成本高、鲜度有限。因此,在线地图生成对于自动驾驶系统是至关重要的。HDMapNet[2]将地图元素通过栅格化进行表示,使用pixel-wise的预测和启发式后处理方法获得矢量化的预测结果。最近的一些方法,如MapTR[4], PivotNet[3], Streammapnet[5]等则基于Transformer架构实现了端到端的矢量化预测,但这些方法仅使用传感器输入,在遮挡、极端天气等复杂环境下性能仍有限。
(2)远距离地图感知
为了让在线地图生成的结果能够更好的被下游模块使用,一些研究尝试将地图感知范围进一步拓展。SuperFusion[7]通过融合激光雷达和相机,通过depth-aware BEV变换,实现了前向90m的远距离预测。NeuralMapPrior[8]通过维护和更新全局神经地图先验来增强当前在线观测的质量、拓展感知的范围。[6]通过将卫星图像与车载传感器数据进行特征聚合来获得BEV特征,进一步再进行预测。MV-Map则专注于离线、长距离的地图生成,该方法通过聚合所有关联帧特征,并使用神经辐射场来对BEV特征进行优化。
概述P-MapNet
整体框架如图 2所示。
3.1 SDMap Prior 模块
SDMap数据生成
本文基于nuScenes和Argoverse2数据集进行研究,使用OpenStreetMap数据生成以上数据集对应区域的SD Map数据,并通过车辆GPS进行坐标系变换,以获取对应区域的SD Map。
BEV Query
SD Map先验融合
3.2、HDMap Prior 模块
直接将栅格化的HD Map作为原始MAE的输入,MAE则会通过MSE Loss进行训练,从而导致无法作为refinement模块。因此在本文中,我们通过将MAE的输出替换为我们的segmentation head。为了让预测的地图元素具有连续性和真实性(与实际HD Map的分布更贴近),我们使用了一个预训练的MAE模块来进行refine。训练该模块包含两步:第一步上使用自监督学习训练MAE模块来学习HD Map的分布,第二步是通过使用第一步得到的权重作为初始权重,对网络的所有模块进行微调。
4、实验
4.1 数据集和指标
4.2 结果
与SOTA结果对比:我们对所提的方法与当前SOTA方法在短距离(60m × 30m)和长距离(90m × 30m)下的地图生成结果进行比较。如表II所示,我们的方法在与现有的仅视觉和多模态(RGB+LiDAR)方法相比表现出更优越的性能。
我们在不同距离和使用不同传感器模式下,与HDMapNet [14] 进行了性能比较,结果总结在表I和表III中。我们的方法在240m×60m范围的mIOU上取得了13.4%改进。随着感知距离超出或甚至超过传感器检测范围,SDMap先验的有效性变得更加显著,从而验证了SDMap先验的功效。最后,我们利用HD地图先验通过将初始预测结果精细化以使其更加真实,并消除了错误结果,进一步带来了性能提升。
#CurveFormer++
在自动驾驶中,使用单目相机进行3D车道线检测对于各种下游规划和控制任务至关重要。最近的卷积神经网络(CNN)和Transformer方法通常在模型设计中采用两阶段方案。第一阶段将前视图像的特征转换成鸟瞰图(BEV)表示。随后,一个子网络处理BEV特征图以生成3D检测结果。然而,这些方法在很大程度上依赖于一个具有挑战性的图像特征变换模块,将透视视图转换为BEV表示。
在作者的工作中,作者提出了CurveFormer++,这是一种基于Transformer的单阶段方法,它不需要图像特征视图变换模块,并直接从透视图像特征推理3D车道线检测结果。具体来说,CurveFormer++将3D检测任务建模为一个曲线传播问题,其中每条车道由一个带有动态有序 Anchor 点集的曲线 Query 表示。通过使用Transformer解码器,模型可以迭代地改进3D车道线检测结果。
在Transformer解码器中引入了曲线交叉注意力模块,以计算图像特征与车道的曲线 Query 之间的相似性。为了处理不同车道长度,作者采用了上下文采样和 Anchor 点限制技术,为曲线 Query 计算更为相关的图像特征。此外,作者还应用了一个时序融合模块,该模块融合了选定的信息丰富的稀疏曲线 Query 及其相应的 Anchor 点集,以利用历史车道信息。
在实验中,作者在两个公开可用的真实世界数据集上评估了作者的3D车道线检测方法。结果显示,与基于CNN和Transformer的方法相比,CurveFormer++提供了卓越的性能。作者还进行了消融研究,以分析作者方法中每个组件的影响。
I Introduction
车道线检测在自动驾驶感知系统中起着至关重要的作用,它可以为静态交通场景提供来自前视摄像机的准确车道信息。通过利用在 ego 车辆坐标系中的车道线检测结果,可以开发出各种重要的驾驶特性,包括基本的先进驾驶辅助系统(ADAS)特性,如车道保持辅助(LKA)、车道偏离警告(LDW),以及更高级的功能,如智能巡航控制(ICC)和领航辅助(NOP)。这些特性有助于提升驾驶辅助和自动化能力,最终提高了自动驾驶车辆的安全性和便利性。
早期对车道线检测的研究主要集中在图像空间,将其视为一个语义分割任务,或者利用线回归技术。例如,基于CNN的分割方法SCNN从输入图像中区分车道线与交通背景,而基于回归的方法Ultra-Fast旨在在图像空间上识别车道线上的关键点。然而,对于下游任务,如规划和控制,更希望在3D空间中以曲线参数的形式表达车道线。因此,需要后处理步骤将2D车道结果从图像空间转换到自主车辆坐标系统,如图1(a)所示。
不幸的是,由于缺乏深度信息和准确的实时相机外参,将车道线从图像平面投影到鸟瞰视图(BEV)视角往往会导致误差传播问题。此外,典型的后处理步骤,如聚类和曲线拟合方法往往比较复杂且耗时,这使得车道线检测方法不够健壮,也不太适合于现实的感知系统。
为了解决两阶段方法后期处理中的局限性,已经提出了基于卷积神经网络(CNN)的方法,用于端到端的3D车道线检测任务。这些方法采用逆投影映射(IPM)将图像特征图转换到地面平面。例如,图1(b)所示的3D-LaneNet,它使用基于 Anchor 点的3D车道表示并预测摄像机姿态,使用IPM将2D特征投影出来。
同样,Gen-LaneNet提出了一种虚拟俯视图,将IPM投影的鸟瞰图(BEV)特征与真实世界车道对齐。基于CNN的另一种3D车道线检测方法涉及深度估计及该信息的整合。例如,ONCE执行2D车道语义分割和深度估计,整合这些结果来推导3D车道。然而,准确摄像机姿态估计或深度估计的要求可能会导致丢失车道高度,从而影响这些方法的鲁棒性,特别是在平面地面假设不成立的情况下。
近年来,基于Transformer的方法在计算机视觉和机器人任务中取得了显著进展,展现了卓越的成功。最初由DETR引入到目标检测领域,基于Transformer的方法因其能够消除对后处理步骤的需求,直接从输入图像推理输出而受到欢迎。同样,基于Transformer的3D车道线检测方法采用类似的原理从输入图像计算3D车道结果。这些方法首先通过视图变换构建密集的鸟瞰图(BEV),然后使用解码器层中的交叉注意力从中间BEV特征图计算3D车道结果。
例如,PersFormer构建了一个密集的BEV Query ,并使用Transformer将BEV中的 Query 与图像特征进行交互(如图1(c)所示)。然而,尽管这些方法努力利用Transformer进行3D车道线检测,缺少图像深度或BEV图高度限制了它们通过获取与 Query 精确对应的特征来提高性能。因此,这些方法可能限制垂直信息的表达,特别是在3D车道线检测场景中,近处对应平坦道路,而远处可能涉及上坡或下坡路段。
为了解决上述挑战,作者提出了CurveFormer++,一个增强的基于Transformer的3D车道线检测方法(图1(d))。在CurveFormer++中,车道被表示为稀疏的曲线 Query 及其相应的车道置信度、两个多项式和起始和结束点(图4(a))。受到DAB-DETR 的启发,作者引入一组3D动态 Anchor 点以促进曲线 Query 与图像特征之间的交互。通过使用相机外参将高度信息融入,3D Anchor 点使作者能够精确地与每个 Anchor 点对应的图像特征对齐。此外,动态 Anchor 点集在Transformer解码器序列中迭代优化。
此外,作者在解码层中引入了一个新颖的曲线交叉注意力模块,以研究曲线 Query 和动态 Anchor 点集的效果。与直接从 Query 预测采样偏移的标准Deformable-DETR 不同,作者引入了一个上下文采样单元,从参考特征和 Query 的组合中预测偏移,以指导采样偏移的学习。为了提取具有不同长度的车道的更准确特征,作者在特征采样步骤中采用了动态 Anchor 点范围预测作为限制。此外,还采用了辅助分割分支来增强共享的CNN Backbone 网络。通过这种方式,作者的CurveFormer设计适用于3D车道线检测。
历史帧中的时间信息在推进自动驾驶中的3D感知方面发挥着关键作用。最近,基于Transformer的BEV方法将来自多帧图像特征的BEV特征图融合到一个统一的BEV空间中,以提供时间信息。与单帧方法相比,这些方法在目标检测和静态交通场景理解任务中取得了显著性能。对于3D车道线检测任务,STLane3D应用了类似的想法,将来自先前观测的密集BEV特征进行融合,如图2(a)所示。尽管BEV特征融合具有优势,但图像到BEV视角转换所需的密集特征采样对精确的BEV时间对齐提出了挑战。特别是当对齐缩小尺度的BEV特征图时,考虑到交通车道只占据密集BEV空间的一小部分,这尤其具有挑战性。因此,这些困难可能会限制利用历史信息进行3D车道线检测的有效性。
受到融合历史 Query 信息的StreamPETR的启发,在本研究中,作者提出了一种新颖的方法来执行历史结果的时效融合。CurveFormer++包括利用历史稀疏曲线 Query 和动态 Anchor 点集,实现了有效的时间传播。如图2(b)所示,作者的时间融合方法不依赖于密集的BEV特征图。
为了验证所提出算法的性能,作者在OpenLane数据集和ONCE-3DLanes数据集上评估了作者的CurveFormer++。CurveFormer++在ONCE-3DLanes数据集上为3D车道线检测取得了具有竞争力的结果。与近期提出的基于Transformer的3D车道线检测方法相比,它在OpenLane数据集上也展现出了前景的性能。同时,每个组件的有效性也得到了验证。
通常,作者的主要贡献有三个层面:
- 作者提出了CurveFormer++,一种基于Transformer的新型三维车道线检测算法。通过将解码器层中的 Query 格式化为动态 Anchor 点集,并应用曲线交叉注意力模块来计算 Query 与图像之间的相似性。此外,在解码器层中采用了动态 Anchor 点范围迭代方案,以实现准确的特征提取。
- 作者引入了一种以车道为中心的时间建模范式,其中长期历史信息通过稀疏 Query 和 Anchor 点逐帧传递。为此,CurveFormer++ 可以通过选择性的时间曲线 Query 和历史 Anchor 点,将从图像序列中融合时间信息到3D车道线检测任务中。
- 实验结果表明,
- 在几个公共数据集上与基于CNN和基于Transformer的最先进方法相比,取得了有希望的性能。
与会议论文的区别。 本工作的初步版本,CurveFormer,已被 ICRA 2023 接收。与会议版本相比的改进如下:
- 作者将CurveFormer 进行了扩展,以编码来自图像序列的时间信息。具体来说,作者提出了一个时间曲线交叉注意力模块,使模型能够通过稀疏曲线 Query 和动态 Anchor 点集逐帧传播历史信息。所引入的时间融合方法确保了3D车道预测结果在帧与帧之间的稳定性。
- 作者修改了曲线 Anchor 点建模,以融入一个动态控制 Anchor 点数量的 Anchor 点范围限制。由于每条车道的长度并不固定,所提出的范围限制使得 Anchor 点集合能够有效地提取车道图像特征。这种方式确保了增加 Anchor 点数量不会导致包含无效的图像特征。
- 作者在新数据集ONCE-3DLanes上进行了实验,并且还在OpenLane数据集上提供了额外的实验来评估CurveFormer++。扩展版的CurveFormer++相较于原始的CurveFormer实现了显著的提升。
II Related Work
2D车道线检测。 早期深度学习车道线检测方法在图像平面上执行,可以分为分割方法和回归方法。分割方法通过分配一组预定义的语义标签来区分图像中的每条车道线。除了标准的分割方法外,还引入了捕捉车道结构先验的方法。SCNN首次引入了在特征图上逐片卷积,因为它更适合于车道线检测。LaneNet通过增加一个聚类嵌入分支,将语义分割升级为实例分割。SAD提出了一种可插入的自注意力模块,以增强特征的学习能力,无需额外的监督。RESA [4]基于车道的强形状先验,在垂直和水平方向上结合空间信息。Bi-Lanenet提出了一种新的双边车道识别网络,使用随机样本共识。MFIALane [6]聚集多尺度特征信息并采用通道注意力机制。
与使用全局分割方法相比,近期研究也将车道线检测制定为局部车道线回归任务。车道回归算法可以分为关键点估计,基于 Anchor 点的回归和行回归。PINet 通过独立的关键点制定车道,并使用实例分割解决聚类问题,而 GANet 将车道表示为与起点相关联的一组关键点。DevNet 结合了基于点估计的偏差感知和语义特征。Point2Lane 选择可变数量的主点,并通过连接它们简单地再现目标车道。Point-LaneNet 和 CurveLane-NAS 将图像划分为非重叠网格,并相对于垂直线 Proposal 回归车道偏移。
Line-CNN 和 LaneATT 在预定义的光线 Proposal 上回归车道,而 CLRNet 将射线 Anchor 的起始点和角度设置为可学习参数,并在特征金字塔层之间进行细化。Ultra-Fast 将车道线检测视为一种行分类方法,显著降低了计算成本。LaneoFormer 通过行列自我关注重新构建传统的 Transformer 架构,以更好地获取车道的形状和语义信息。
除了点回归,使用多项式方程建模车道是另一种已经探讨过的方法。PolyLaneNet 利用全局特征直接在图像平面上预测多项式系数。PRNet 增加了两个辅助分支:初始分类和高度回归,以增强多项式估计。文献 [36] 中的方法应用IPM(逆透视映射)和最小二乘拟合直接在BEV(鸟瞰图)空间预测抛物线方程。LSTR 使用Transformer与图像特征和车道 Query 交互,直接预测3D车道参数。
**三维车道线检测。**近年来,采用端到端方法进行车道线检测的趋势日益增强,特别是在三维车道线检测的背景下。大多数基于CNN和Transformer的方法首先构建一个密集的BEV特征图,然后从此中间表示中提取三维车道信息。3D-LaneNet提出了一种双路径架构,使用IPM转置特征并通过垂直 Anchor 定回归检测车道。
为了解决车道方向上的 Anchor 定限制,3D-LaneNet+将BEV特征划分为非重叠单元格,并通过与单元格中心相关的横向偏移距离、角度和高度偏移来重新定义车道。文献[38]中的方法引入了不确定性估计,以增强[17]网络的性能。GenLaneNet首先引入了一个虚拟俯视坐标框架以改善特征对齐,并提出了一种两阶段框架,将车道分割和几何编码解耦。BEVLaneDet提出了一种虚拟相机以确保空间一致性,并通过关键点表示3D车道以适应更复杂的场景。GroupLane首次在BEV中引入了按行分类的方法,该方法支持任意方向的车道,并与实例组内的特征信息进行交互。
由于相机姿态估计是三维车道线检测的关键,CLGo提出了一种两阶段框架,该框架从图像估计相机姿态,并从BEV特征解码车道。PersFormer使用离线相机姿态构建了密集的BEV Query ,并在基于Transformer的框架下统一了2D和3D车道线检测。STLanes3D使用融合的BEV特征预测3D车道,并引入3DLane-IOU损失以耦合横向和高度方向上的误差。
为了减少计算开销,一些方法最近试图在不显式构建BEV特征的情况下检测3D车道。例如,Anchor3DLane,这是一种基于CNN的方法,它直接从基于3D Anchor 定的图像特征回归3D车道。CurveFormer利用Transformer中的稀疏 Query 表示和交叉注意力机制高效地回归3D车道多项式系数。紧随CurveFormer的类似 Query Anchor 定建模,LATR构建了一个车道感知 Query 生成器及动态3D地面位置嵌入,以提取车道信息。
时间融合。 来自历史帧的时间信息为自动驾驶中的3D感知提供了额外的信息。例如,在3D目标检测任务中,BEVFormer 将时间建模引入到多视图3D目标检测中,它采用时间自注意力来融合历史BEV特征。Sparse4D 通过稀疏采样和按照特定顺序融合多维度特征来迭代优化3D Anchor 点,以获得准确的检测结果。StreamPETR 将之前的和当前的稀疏目标 Query 都输入到Transformer解码器中,以执行空间时间交互。
在3D车道线检测任务中,Anchor3DLane-T 通过将当前帧的3D Anchor 点投影到之前的帧上来采样特征,从而融入时间信息。PETRv2 扩展了3D位置嵌入和多视图图像特征,用于时间建模,为Transformer解码器中的 Query 学习提供信息丰富的指导。STLane3D 提出了一种在BEV空间下的新颖多帧预对齐层,它将来自不同帧的特征统一投影到相同的ROI区域。
III Method
Overview
图3(a)和(b)分别展示了作者CurveFormer++在单帧3D车道线检测框架的概览以及所提出的时间融合块。
在图3(a)中,CurveFormer++由两个主要部分组成:一个共享的CNN Backbone 网络,它接收单个前视图图像作为输入并输出多尺度特征图;以及一个曲线Transformer解码器,通过曲线交叉关注传播曲线 Query ,并迭代地细化 Anchor 点集。
如图3.(b)所示,作者提出的时间传播融合块采用了稀疏曲线 Query 和动态 Anchor 点集。作者只将置信度最高的曲线 Query 和 Anchor 点传播到下一帧。
Shared CNN Backbone
Backbone 网络接收输入图像并输出多尺度特征图。在训练阶段,作者添加了一个辅助分割分支以增强共享的卷积神经网络 Backbone 。
Sparse Curve Query with Dynamic Anchor Point Set
DAB-DETR 提出了一种新颖的方法,其中 Query 被建模为 Anchor 框,由4D坐标(x, y, w, h)表示。这种表示使得交叉注意力模块能够利用每个 Anchor 框的位置和大小信息。受到DAB-DETR的启发,作者将类似的方法应用于基于Transformer的3D车道线检测,并使用动态 Anchor 点集。
其中位置编码(PE)被用来使用浮点数生成嵌入,而多层感知机(MLP)的参数在所有层之间共享。
Curve Transformer Decoder
作者的曲线Transformer解码器主要包括三个主要部分:一个多头自注意力模块,一个上下文采样模块以及一个曲线交叉注意力模块。作者在自注意力模块中应用了可变形注意力,该注意力集中于参考点周围的一组有限的关键采样点,而不管特征图的空间大小。
上下文采样模块。 在可变形DETR 方法中,使用一个可学习的线性层来估计与 Query 相关的参考点的采样位置偏移,这些偏移与图像特征无关。与这种方法相比,作者引入了一个上下文采样模块,通过结合更多的相对图像特征来预测采样偏移。图5展示了标准采样偏移模块(a)与作者的上下文采样模块(b)之间的区别。
Propagation Fusion Module.
在自动驾驶中,当前帧观察到的静态车道实例往往会在后续帧中持续存在。这一观察激发作者将历史信息传播到下一帧。基于CurveFormer++的独特设计,作者提出了一个简单直接的时间融合模块,该模块融合了曲线 Query 及其相应的 Anchor 点集。
如图6所示,作者比较了四种基于CurveFormer++构建的不同时间传播融合模块,以验证融合历史信息所带来的改进。
利用历史曲线 Query 。 与BEVFormer不同,后者通过使用自注意力将时态建模融入到多视图3D目标检测中,以融合历史鸟瞰图(BEV) Query ,作者提出了一个替代框架,使用稀疏 Query 作为时态传播的隐藏状态。具体来说,作者将历史信息从稀疏曲线 Query 传递到当前帧。这是通过使用历史帧曲线 Query 同时作为_键_和_值_,并在当前帧的初始曲线 Query 上应用时态自注意力来实现的,如图6(b)所示。
利用历史Top-K曲线 Query 。 在基于Transformer的检测模型中, Query 的数量通常远超实际目标数量,导致一些 Query 无法有效地学习目标的表示。遵循[31, 47]的方法,作者只将置信度最高的曲线 Query 传播到下一帧。如图6(c)所示,作者将历史的Top-k曲线 Query 直接与当前随机初始化的 Query 连接起来,并将曲线 Query 作为temporal self-attention中的 Query 、keys和values进行融合。
利用历史Top-K曲线 Query 和 Anchor 点集。 为了充分利用空间和上下文先验,作者不仅将传播扩展到Top-K曲线 Query ,还将在当前帧中转移相应的 Anchor 点集。如图6(d)所示,在传播历史Top-K曲线 Query 时,作者使用方程(6)将Top-K Anchor 点集转换到当前的坐标系统中,然后将它们与初始 Anchor 点集连接起来。通过包含历史曲线 Query 及其相关的 Anchor 点,模型能够捕捉并利用车道之间的时间依赖性和空间关系,从而提高了3D车道线检测的性能。
Curve Training Supervision
IV Experiments
Dataset
OpenLane 数据集。 OpenLane 数据集是第一个真实世界的3D车道数据集,基于 Waymo 开放数据集,以每秒10帧的频率包含超过20万帧。总共,它拥有一个带有157K张图片的训练集以及一个含有39K张图片的验证集。该数据集提供了相机内参和与 Waymo 开放数据集相同数据格式的相机外参。
ONCE_3DLanes 数据集。 ONCE_3DLanes 数据集是从最近的大规模自动驾驶数据集 ONCE 构建的一个真实世界的3D车道数据集。该数据集包含211K张具有高质量3D车道点标注的图像,涵盖多种天气和地区条件。
Experiment Settings
Evaluation Metrics
ONCE-3DLanes数据集采用两阶段评估指标来检测车道。最初,匹配度是基于俯视图平面上的交并比(IoU)确定的。如果匹配对的IoU超过某个阈值,它们将进一步使用单向 Chamfer 距离(CD)作为匹配误差进行评估。在作者的评估中,作者报告了在ONCE-3DLanes数据集上的F1分数、精确度、召回率和CD误差的结果。
Main Results
表1列出了在ONCE-3DLanes数据集和OpenLane数据集上F1分数的实验结果。类似于CurveFormer的 Query Anchor 建模方法,LATR通过利用语义结果作为 Transformer Query (Lane-Embed)的输入和动态3D地面位置嵌入(Ground-Embed)来构建一个关注车道的 Query 生成器,以增强车道信息。LATR在OpenLane和ONCE-3DLanes数据集上都取得了最先进的结果。
在OpenLane子集数据集(约300个视频片段)中,当不使用Lane-Embed和Ground-Embed组件时,CurveFormer++比LATR取得了更优的结果。如[44]中所声称的,主要的改进是通过Lane-Embed和Ground-Embed实现的。由于CurveFormer++没有使用这两个组件,作者在后续表格中主要比较了其他未包含这些组件的方法。
在ONCE-3DLanes数据集上的结果。 表2展示了在ONCE-3DLanes数据集上的实验结果。基于Transformer的方法优于基于CNN的方法。例如,CurveFormer++相比于3D-LaneNet和Gen-LaneNet显示出显著的改进。它还在F-Score上比Anchor3DLane高出2.78%,在精确度上高出1.72%。
此外,CurveFormer++超越了基于Transformer的方法,其F-Score比PersFormer高出5.15%,比STLane3D高出3.17%。值得注意的是,CurveFormer++达到了与STLane3D-T相当的性能,后者还额外结合了时间特征信息。作者的时间模型,CurveFormer++-T,与单帧设置相比,实现了更高的F-Score(+0.63)和召回率(+2.1)。
在OpenLane数据集上的结果。 对于OpenLane数据集,作者在整个验证集以及六个不同场景集上评估了CurveFormer++和CurveFormer++-T。在表3中,CurveFormer++与可能限制垂直信息表达的密集BEV方法相比,展示了显著的改进。通常情况下,在整个验证集上,它比PersFormer 在F-Score上高出2.2%。
同样,作者对CurveFormer的修改使得在验证集上的F-Score提高了2.2%,相比其原始版本。在各种场景中,包括上坡、下坡、曲线以及夜间条件,作者的基于Transformer的方法相较于基于CNN的方法Anchor3DLane(同样没有采用密集的鸟瞰图模块)提供了更准确的结果。
表4显示CurveFormer++-T在x和z误差上的预测更为精确,表明融合时间信息可以提高近区域检测结果的准确性。此外,作者使用第IV-C节提出的稳定性评估指标,对PersFormer,CurveFormer++和CurveFormer++-T在200个测试视频片段上进行评估。在96%的视频片段中,CurveFormer++-T的标准差低于PersFormer,并且在58%的视频片段中,在标准差降低方面优于CurveFormer++。相应的结果展示在图7中。
Ablation Study
在本节中,作者通过在OpenLane数据集的一个子集(约300个视频片段)上进行的消融研究,分析所提出的关键组件的效果。
V-E1 Single-frame Experiments
作者进行了验证,以评估CurveFormer++的组件和设置的有效性。
动态 Anchor 点集设计。 在作者的Curve Transformer解码器中,每个3D车道 Query 被表示为一个动态 Anchor 点集。动态 Anchor 点提取更准确特征的效率对每个解码器层上 Query 的逐步优化具有至关重要的作用。
为了研究作者动态 Anchor 点集的有效性,作者进行了实验,变化 Anchor 点的数量以及是否对 Anchor 点应用范围限制。实验结果列于表5中。正如预期的那样,简单地将 Anchor 点数量从10增加到40并不能提供性能提升。这可以归因于车道长度的变化,如果没有范围限制, Anchor 点可能会提取不相关的特征。
总体而言,当同时使用40个带有范围限制的 Anchor 点时,性能在F-Score上显示出显著提高2.7%。然而,使用超过40个 Anchor 点并没有提供任何额外的改进。这表明增加 Anchor 点数量可能会在特征提取中引入冗余,可能导致从图像中采样重复的车道特征。
网络结构与设置。 为了简化模型并降低计算成本,作者用仅解码器的网络替换了文献[32]中描述的原始编码器-解码器架构。两种结构的性能展示在表6中。
V-B2 Multi-frame Experiments
作者现在分析CurveFormer++-T的几个设计选择。
结果表明,使用历史 Anchor 点(图6(a))和历史曲线 Query (图6(b))可以得到类似的结果,并且通过融合时间信息提高了性能。历史 Query 和 Anchor 点都被证明能有效地增强3D车道线检测结果。同时,曲线 Query 比单独使用 Anchor 点取得稍微好一点的结果,这表明潜在的曲线 Query 可能包含除了显式点表示之外的额外信息。
在使用历史曲线 Query 时,选择具有最高置信度分数的前K个曲线 Query (图6(c))可以进一步提升F-Score 1.1%。这证明了仅使用信息丰富的 Query 作为历史信息来编码时间信息的重要性。最后,利用前K个精炼的稀疏曲线 Query 及其相应的动态 Anchor 点集(图6(d))相比于单帧模型取得了实质性改进,F-Score从51.8%提高到54.2%。这一改进验证了作者在时间传播模块设计中有效捕捉和利用时间信息的优越性。
实验结果表明,在考虑2个历史帧的同时,结合6个得分最高的曲线 Query 及其相应的 Anchor 点集,可以获得最佳的绩效,F-Score达到了55.4%。
V Conclusions
在本文中,作者介绍了CurveFormer++,一种基于Transformer的3D车道线检测方法。它使用动态 Anchor 点集来构建 Query ,并在Transformer解码器中逐层细化。此外,为了关注更多相关的图像特征,作者提出了曲线交叉注意力模块和上下文采样模块来计算关键点与图像的相似性。作者还融入了一种 Anchor 点范围限制方法,以增强模型在准确表示不同长度的车道时的鲁棒性和适应性。
此外,CurveFormer++应用了一种新颖的时间融合,利用稀疏曲线 Query 和动态 Anchor 点集来融合历史结果。在实验中,作者展示了CurveFormer++与基于CNN和基于Transformer的方法相比,取得了令人鼓舞的结果。
#车辆ReIDの深度学习
本文广泛探讨了应用于车辆ReID的深度学习技术。它概述了这些方法的分类,包括监督和无监督方法,深入研究这些类别中的现有研究,介绍数据集和评估标准,并阐明未来的挑战和潜在研究方向。文章全面的评估考察了深度学习在车辆ReID中的应用,并建立了未来工作的基础和起点。
车辆重识别(ReID)旨在将来自分布式网络摄像机拍摄的不同交通环境中的车辆图像进行关联。这项任务在以车辆为中心的技术领域中占据着至关重要的地位,在部署智能交通系统(ITS)和推进智慧城市倡议方面发挥着关键作用。近年来,深度学习的快速发展显著推动了车辆ReID技术的演变。因此,对以深度学习为核心的车辆ReID方法进行全面调查已成为迫切且无法避免的需求。
本文广泛探讨了应用于车辆ReID的深度学习技术。它概述了这些方法的分类,包括监督和无监督方法,深入研究这些类别中的现有研究,介绍数据集和评估标准,并阐明未来的挑战和潜在研究方向。这篇全面的评估考察了深度学习在车辆ReID中的应用,并建立了未来工作的基础和起点。它旨在通过突出挑战和新兴趋势,促进利用深度学习模型在车辆ReID方面的进展和应用。
I Introduction
车辆是社交生活中最受欢迎和重要的部分。近年来与车辆相关技术的进步,如车辆检测、车辆类型识别、车辆跟踪、车辆检索等,已经促使智能交通系统(ITS)和智能城市的实现。在这个技术领域中,搜索特定车辆轨迹并探索其运动在加强智能城市框架中的公共安全方面具有重要意义。
如图1所示,这项努力涉及从车辆图像中提取全局和局部特征,并结合相关的辅助属性,包括颜色、类型、品牌和时空数据。这些提取的特征然后用于比较画廊图像,检索与 Query 图像相似的图像,缩小检索范围,并最终提高结果的质量。这个过程中关键元素是提取和比较从车辆图像中提取的特征,通常称为车辆ReID。车辆ReID旨在在由各种相机在不同的时刻捕获的车辆图像的广泛存储库中识别特定车辆。它在广泛的智能交通系统中尤为突出,并应用于各种视频监控场景,包括定位丢失的车辆、跨地区跟踪特定车辆等。
近年来,随着深度学习技术的快速发展和其在高性能自动目标检测方面的成功,车辆ReID已经引起了许多研究行人和工业界人士的关注。根据对几篇研究论文的调查,作者总结出了基于深度学习的车辆ReID方法的分类,如图2所示。
如图2所示,车辆ReID方法可以分为两个关键类别:监督方法和不监督方法。
在监督方法中,一些研究行人主要专注于从车辆图像中学习独特的视觉特征作为分类问题,而其他人则专注于通过损失函数进行深度度量学习。
为了学习视觉特征,通常,卷积神经网络(CNN)及其变体已经被广泛应用于从车辆图像中识别全局特征。此外,一些方法建议将不同层的特征图与CNN的最终输出相结合。这些方法只关注车辆的全局特征,而没有考虑其丰富的细节,因此不适合用于区分视觉上相似的车辆。为了解决这个问题,一些工作已经进行了局部和全局特征的集成。例如,车辆品牌或装饰从不同视角提供的局部特征可以反映额外的细节。这些方法主要强调从图像分区中学习局部特征,考虑区域之间的关系,或学习局部和全局特征之间的交互。最近, Transformer 的能力已经被应用于从车辆图像中学习全局和局部特征。除了车辆图像,一些方法已经利用知识为基础的信息,包括但不仅限于车辆属性(如车辆颜色、类型、品牌和时空特征,如车辆轨迹)。
深度度量学习旨在通过深度模型获得多维特征空间,以便具有相同类别标签的实例接近,而具有不同类别标签的实例远离彼此。用于度量深度学习的两种主要损失函数是对比损失和Triplet Loss。关于最近的研究,Triplet Loss在车辆ReID任务中优于对比损失。此外,这些损失函数的某些适应性版本已经专门针对与车辆ReID相关的限制进行了调整。
无监督方法试图在没有类别标签的数据中完全发现适当的信息,可以分为两个组:无监督域自适应和完全无监督。前者方法专注于应用一些修改过的对抗网络(GAN),如PTGAN,SPGAN,和CycleGAN,从源域生成具有相同类别标签的合成图像。这些图像以监督方式消耗以训练深度网络。后者主要旨在开发聚类算法和训练策略,从目标域数据中仅发现适当的信息,而不考虑其他辅助信息。与监督方法不同,这些方法从 未标注 的数据中推理车辆ReID,使其更适合并加强实际场景。
虽然最近的成就主要集中在提高车辆ReID模型的性能并解决其问题,但较少的研究关注对这些发展和改进的全面审查。据作者所知,没有对全面研究的彻底回顾,以概括和发现这个主题的所有方面,除了对监督方法的一些调查。因此,有必要回顾当前的最好状态,为这个主题的未来研究提供建议。
在这次回顾中,作者全面调查了使用深度学习方法的车辆ReID,介绍了这些方法的通用分类,包括监督和无监督方法,回顾了这些类别的现有研究,解释了知名数据集和评估标准,并描述了未来研究的挑战和可能的方向。这次回顾检查了基于深度学习的车辆ReID的现状。它为未来的工作提供了基础和起点,指出了相应的挑战和趋势。最终结果将对未来使用深度学习模型开发和应用车辆ReID有所帮助。
II Problem Formulation
III Supervised Vehicle Re-Identification
正如前面提到的,监督方法主要关注使用监督学习技术从车辆图像中学习有用的视觉特征,以实现车辆ReID问题的解决。这是通过两种不同的策略实现的:特征学习和度量学习。前者利用深度学习模型通过学习车辆图像中的稳健和有鉴别性的特征来处理车辆ReID问题。相比之下,后者专注于设计距离和损失函数,以便具有相同类别标签的实例接近,而具有不同类别标签的实例远离彼此。本节全面概述了这些策略。
Feature Learning
最近的研究主要集中在采用各种CNN来提取全局或局部特征,并将它们与聚合模块结合,通过特征学习来重识别车辆。根据聚合模块的机制,这些方法可以分为三类:
- 学习全局特征
- 结合全局和局部特征
- 知识驱动方法
Iii-A1 Learning of Global Features
为了考虑问题的内在挑战并提高ReID模型的实际泛化能力,提出了一些扩展的想法。在[13]中,采用了一个卷积神经网络(CNN)和四部分从粗到细的排名损失函数,以同时考虑所有重要挑战并提取车辆的外观特征。第一步,使用分类损失函数将具有相同模型的车辆聚类在一起,并隔离具有不同模型的车辆。然后,引入了粗糙的排名损失,以提高不同模型车辆之间的鉴别性,同时保持同一模型内车辆之间的差异。同一模型内不同车辆之间的差异也由细粒度的排名损失进行表示。还利用了成对损失,将同一辆车的样本尽可能地靠近。最后,他们应用随机梯度下降方法优化CNN网络权重并训练视觉外观模型。尽管该模型已经形式化了车辆ReID的主要问题,但模型验证数据集不适用,一些挑战,包括不同视角、遮挡、日夜变化和不同天气条件,也没有得到评估。
除了车辆图像,一些工作尝试从不同视角提取车辆图像的空间-时间属性和关联,以提高车辆ReID模型的有效性。在[45]中,将车辆图像之间的关系表示为多个颗粒。还提出了两种方法,即广义成对方法和多颗粒列表排序,以提高车辆检索问题的效率。这些方法通过CNN提取全局特征实现。
[46]中的作者开发了一个集成的CNN基础框架,用于发现车辆图像的独特视觉表示。该框架有效地集成了四个不同的子网络,包括识别、属性识别、验证和三元组,以学习各种特征和样本之间的关系。前两个子网络提取单个实例的详细特征,而接下来的两个子网络则专注于样本之间的关系。更具体地说,验证和三元组分别限制了两个样本和三个样本之间的关系。最后,为了训练框架,他们提出了一种同时优化这些子网络四个目标函数的方法。
除了基于CNN的外观特征和辅助特征(如颜色、类型、品牌和纹理),一些研究行人专注于其他特定的特征,如车牌和时空信息,以使检索结果更准确并增强重排机制。在[47]中,作者提出了一种多级深度网络作为粗糙滤波器,用于获取车辆视觉外观特征。然后,他们通过添加诸如车辆纹理、颜色和类型的属性来扩展粗糙滤波器。接着,车牌识别被应用于使搜索更精确。Query 图像和库图像之间的时空关系被调整以修改检索图像的排名[48]。
最近,一些研究考虑了车辆图像的多分辨率性质,即不同相机可能捕获的图像。在[14]中,提出了一种两阶段的深度模型,用于从多分辨率图像中发现独特的视觉特征。在第一阶段,开发了一个多分枝网络,以获取不同尺度的特定属性。每个分枝都由类似的结构CNN网络组成,以产生其尺度特定的视觉特征。这些特征作为输入传递到集成网络,以产生最终的视觉外观模型。两阶段的输出之间的交互利用提高了模型的效率。除了多分辨率视图外,一些工作考虑了注意力机制和全局外观特征,以捕获更有信息量的关键点。这些工作可以归类为结合全局和局部特征。
然而,一些这些方法并没有将车辆图像划分为有意义的地方,并从车辆图像中仅获得一些全局关键点。作者将它们放在当前部分中讨论。例如,在[49]中,提出了一种两分支深度模型,以提取全局和局部特征。在第一分支中,通过多级基于CNN的网络提取全局外观模型。还受到[50]和[51]的工作启发,建立了一个完全两阶段的CNN基于注意力方法,以提取关键点。这些特征被连接并后处理,以提取最终的视觉特征。他们的评估结果证实了注意力机制在克服车辆ReID问题方面的有效性。
总之,尽管已经提出了许多有价值的工作,但全局特征学习只考虑了车辆的整体视图,忽略了对于车辆ReID至关重要的区分性局部特征;因此,这些车辆ReID模型无法实现可接受的性能。因此,仅学习全局特征对于车辆ReID是不够的,还需要考虑局部特征以反映车辆的细节。
Ii-B2 Combining Global and Local Features
车辆之间的颜色、品牌、类型和型号等属性是普遍存在的,因此仅基于全局视觉特征进行车辆ReID似乎是不可能的,而车辆风挡玻璃上的装饰和检查贴纸等局部区域可能更有效。
此外,由于相机角度变化、不同天气和光线条件以及车辆之间的相似性等挑战,使得深度模型在没有考虑局部特征的情况下学习全局视觉特征无法有效克服车辆ReID的挑战。本子节对局部特征学习方法的分类及其最突出的模型进行了全面的审查。
图(2)显示,局部特征学习方法可以分为三个类别。一些研究行人只专注于对车辆图像进行静态或动态分割以提取局部特征。然而,一些工作继续调查分割部分之间的关系,以提高模型的泛化能力。最后,最近的努力已经考虑了全局和局部特征之间的交互作用。
从车辆图像分区学习的局部特征 局部特征学习方法可以概括为恒定空间分区和部分检测方法。除了卷积神经网络,注意机制和 Transformer 在两种方法中学习局部特征方面都发挥着重要作用。
常数空间分区间方法通常将特征图在水平或垂直方向上分成几部分,然后分别对每个部分进行池化。例如,在[19]中,提出了一种分叉的深度模型,包括条纹型和属性感知型,同时考虑局部和全局特征。前者包括平均池化层和维数约简卷积层,以发现局部视觉特征图。同时,后者通过监测车辆属性标签来提取全局特征图,以区分具有不同属性标注的相似身份。最后,将车辆图像的视觉特征图构建为将提取的局部和全局特征图 ConCat 起来。
在[16]中,引入了一种名为RAM1的模型,该模型从一系列局部和全局区域中提取局部特征。该模型最初使用基于CNN的网络生成一个共享特征图。然后,四个深度卷积模型处理这个特征图,产生不同的全局和局部特征。此外,RAM训练通过在多个分类任务中逐步优化softmax损失,同时考虑车辆ID、类型或模型以及颜色。
类似地,在[17]中,提出了一种Partition and Reunion Network (PRN),用于提取具有固定全局特征图分区的局部特征。ResNet-50卷积神经网络被用作全局特征向量提取器。然后,在ResNet-50的卷积4_1层之后,复制卷积层将ResNet-50的 Backbone 部分分为高度/宽度分支。每个分支都被分为高度/宽度和通道特征图。因此,这些三个特征图,包括高度、宽度和通道特征图,被生成并连接以获得最终的特征图。作者们开发了一种由硬部分级和软像素级注意力模块组成的两级注意力网络,以学习更独特的视觉外观特征。第一个模块揭示了车辆的部分,例如挡风玻璃和汽车头,而第二个模块则更注重每个车辆部分中的独特特征。此外,他们开发了一种多粒度排序损失函数,该函数制定了类内紧凑性和类间区分目标,以提高学习特征的判别能力。
在C. Liu等人[20]的研究中,提出了一种自注意力模型,用于从车辆图像中提取更细微的特征,以获得用于车辆ReID的独特特征。该模型包括一个预训练的ResNet50网络作为 Backbone 网络,该网络由四个并行的自注意力模块组成,终止于一个最大池化层和一个卷积层。四个 Backbone 网络输出被输入到包含多个卷积层的四个CNN块中,以提取全局特征。这些全局特征及其修改被作为输入,进入十个自注意力分支,以提取多级局部特征。最后,这些特征通过最大池化和卷积层处理,生成特征图的最终视觉外观。该模型通过交叉熵损失和Triplet Loss进行训练。此外,通过贝叶斯模型提取车辆运动路径的一些时空信息,以重新排序模型的结果。
类似地,在[21]中,X. Ma等人受到Yu的研究启发,部署了一个两阶段的基于注意力的深度模型,以尽可能提取出用于车辆ReID的 discriminative特征。他们采用了STN3和网格生成器来自动隔离没有先前限制的车辆,并将其分成三个常数部分。这些部分被作为输入,输入到三个残差注意模型中,以提取更具有鉴别性的外观视觉特征。
正如之前提到的,部分检测方法是另一种学习局部特征的方式。这种方法通常使用一个著名的目标检测器,如YOLO,来找到车辆部分并发现区分性局部特征。主要缺点是部分检测模块通常是一个深度网络,因此需要大量的手动标注、批量训练和推理计算。例如,B. He等人[56]考虑了三个关键的车辆部分,包括灯(大灯和尾灯)、窗(前窗和后窗)和车辆品牌。他们应用YOLO在库中检测这些部分,并检测图像。然后,将原始图像和三个部分输入到四个单独的ResNet-50网络中,以提取一个全局特征图和三个局部特征图。最后,聚合模块将这三个特征图融合在一起,以获得用于车辆ReID的独特特征图。
在[31]中,作者们提出了VAC21数据集,用于学习车辆图像的局部属性和支持车辆ReID模型,从中发现车辆图像中的关键信息。这个数据集包括一个包含7129张不同类型车辆的库,这些车辆用21类层次属性标注(见表1)和边界框标注。据作者所知,这是唯一一个全面标注了车辆图像广泛细微属性的数据集。此外,他们在该数据集上训练了单张SSD网络[57]作为各种计算机视觉任务的属性检测模型,如车辆ReID。例如,[58]采用了这个预训练的SSD检测器来提取车辆属性。他们只选择了21个属性中的16个,并将其输入到部分引导的注意力网络中,以识别关键部件的领域,并将提取的局部和全局特征图融合在一起,以获得更明显的视觉特征。
除了从车辆图像中提取有意义的部分外,一些研究还关注于自动定位车辆图像中的几个关键点,并从中学习局部特征。例如,在Gu等人的研究中,开发了一种两步关键点近似方法。在前一步中,通过采用VGG-16网络,近似了二十个关键点和一个56x56热力图的协调。在下一步中,使用双堆叠小时glass作为细化网络,以增强热力图并减少由于难以察觉的关键点引起的伪影。卷积网络处理这些关键点和车辆方向估计信息,以选择自适应关键点和提取局部特征。同时,使用预训练的ResNet-50网络提取全局特征。最后,将局部和全局特征连接并处理,通过全连接层提取最终视觉特征。
此外,在Z. Wang等人的研究中,引入了一种深度模型,可以自动识别车辆部件并提取除了全局特征以外的方向不变的局部特征。更具体地说,使用小时glass网络估计二十个垂直关键点的位置,然后使用四个区域 Proposal Mask进行聚类。这些Mask与原始图像一起用于发现全局特征向量和四个局部特征向量。最后,通过一个自定义卷积层将这些特征组合在一起,得到方向不变的特征向量。
类似地,在Zheng等人的研究中,引入了一种基于关键点的图像分割模型,将原始车辆图像分割成几个前景部分,并检测每个部分是否具有区分性。深度网络处理一组具有区分性的部分和原始图像,以提取在笛卡尔域中具有明显相似性的视觉特征图。
总之,恒定空间分区的首要优点是不需要进行部分标注,并节省了相关的计算时间复杂度。然而,这些方法可能会因为部分分区的匹配问题而出现效率低下。相比之下,部分检测方法可以减轻匹配问题,但与手动部分标注和训练计算的时间复杂度有关。无论如何划分原始图像和如何检测部分,这两个类别都可以独立地学习每个部分区域上的局部特征,而不考虑部分之间的关系。
考虑部分区域之间的关系
这些方法通常是通过将GCN4s与CNN结合来考虑部分区域之间的关系而开发的。CNN通常发现全局特征,而GCN用于学习部分区域计算的局部特征之间的关系。GCN是一种深度神经网络,可以识别图结构实体的空间关系。以X. Liu等人[22]提出的PCRNet5为例,该模型将车辆图像划分为部分,发现部分级独特的特征,并确定车辆ReID中部分之间的关系。将车辆图像通过图像分割网络分解为部分后,PCRNet采用两个独立的模块分别发现局部和全局特征。开发了一个基于CNN的模型来发现全局特征。基于车辆车身结构的局部特征之间的关联关系,构建了一个部分邻接图。然后,使用一组GCN来在部分之间传播局部特征并提取不同视点的最具有区分性的局部视觉特征。
类似地,受GCN启发的HSS-SCN6在[23]中被提出,以了解车辆车身部件之间的层次关联并提取更多的独特特征用于车辆ReID。与大多数先前的作品一样,这个框架包括两个模块来提供全局和局部特征图。全局特征模块通过ResNet-50网络实现,然后被输入到局部特征模块以形成结构图网络。在局部特征模块中,采用了恒定空间分区方法将全局特征图划分为五个局部区域,包括特征的上左、上右、中间、下左和下右。这五个特征图和全局特征图形成图的顶点,所有局部或全局顶点之间的空间接近性构成图的边。
此外,Y. Zhu等人[24]引入了SGAT7来考虑标志符(如徽标、窗户、灯和车牌)之间的内在结构关联以及车辆图像之间的外在结构关联。特别是,SGAT包含三个元素:外观、属性和外在SGAT(ESGAT)模块。首先,外观模块使用CNN网络提取全局特征,同时使用内在SGAT(ISGAT)发现局部特征。这些特征被 ConCat 在一起形成车辆的视觉外观特征。同时,将画廊图像输入到属性模块以计算属性相似度矩阵。最后,ESGAT网络采用相似度矩阵来改进车辆的视觉外观特征。
此外,F. Shen等人[25]提出了HPGN8,通过使用金字塔架构将多个SGN结合在一起来完全发现不同尺度特征图的空间重要性。首先,应用ResNet-50作为 Backbone 网络来发现输入车辆图像的全局特征图。接下来,通过应用五个池化层同时缩放全局特征图来生成多尺度特征图。然后,在每个尺度上构建SG9s,其中相应的尺度特征图的元素作为顶点,顶点之间的空间相似性作为边。在每个金字塔结构的 Level 中,通过堆叠三个SG来创建其SGN,以处理相应的尺度特征图。SGN的输出被 ConCat 在一起以产生独特的车辆视觉特征。在[64]中,作者采用了一个CNN模型,然后是一个Transformer[65],以挖掘全局特征并使用知识图谱传输网络,该网络由所有车辆类型作为节点来发现类内信息相关性。
尽管考虑部分区域之间关系的方法已经取得了有前途的结果,但它们仍然没有考虑局部特征和全局特征之间的相关性,以及其他描述性属性(如颜色、视点、品牌等),因此它们还没有达到足够的成熟度,其他方法已经通过涉及Transformer来填补这些缺陷。
Transformer-based Feature Learning
Transformer概念最初是在A. Vaswani等人[65]的研究中引入的,用于处理机器翻译问题。空间统计信息保留和全局处理是Transformer的两个基本机会。与CNN模型相比,由于下采样操作,Transformer可以保留空间统计信息,并通过采用多头自注意力机制提供远程信息。
后来,研究行人将Transformer应用于计算机视觉领域,并在各种视觉任务上获得了显著的性能,与CNN相比。例如,ViT10已在A. Dosovitskiy等人[66]的研究中提出,用于图像分类问题,其有效性已在多个知名基准测试上得到证实。最近,Transformer的能力被应用于解决车辆ReID问题。在本节中,作者讨论了Transformer的监督学习和特征学习应用,其余应用在其他节中进行了回顾。
在L. Du等人的研究中[70],ViT schema已被定制用于车辆ReID。车辆图像已被分割成 Patch ,线性投影为局部特征,并与视点信息合并,作为Transformer层输入。同样,Z. Yu等人[71]提出了VAT11,作为Transformer框架,将部分级局部特征和车辆属性集成,以实现更明显的特征图。车辆图像已被分割成几个部分,线性投影为视觉特征,并与属性特征(颜色、型号、视点等)相结合,输入到Transformer层,以生成车辆特征图。此外,多样本Triplet Loss已被采用来优化Transformer网络。
M. Li等人[28]关注于同一车辆从不同方向捕获的图像之间显著差异的学习挑战。他们提出了一种基于Transformer的schema来解决这个问题。他们的Transformer考虑了不同方向之间部分级交会的部分级对应关系,通过建模部分内和跨视点之间的对应关系。更具体地说,多个视图图像被分割成部分,通过卷积网络编码器进行约束,然后通过部分级交互在Transformer中提取车辆表示。
正如前文所述,GCN仅考虑部分区域之间的关系,并单独提取局部和全局特征。在F. Shen等人的研究中[26],GiT12将GCN和Transformer结合在一起,提取全局和局部特征,并学习它们之间的交互和合作。在微观视角下,车辆图像被划分为多个称为patch的具有多个意义的部分,然后线性投影为向量作为顶点,创建一个局部相关图(LCG)。最后,将LCG输入到Transformer层以构建GiT块。每个GiT块都与下一个块相连,模型化局部和全局特征之间的交互,并提供用于车辆ReID的最后判别特征图。
一些研究行人最近将Transformer模型扩展到使用语义和局部视觉特征,以达到更高效的车辆ReID模型。Z. Yu等人[72]开发了SOFCT13 schema,以探索更具有区分性的全局和局部特征。全局特征提取 Pipeline 首先将车辆图像划分为方块,然后通过线性投影层将其映射到高维数据。一个标记学习器被应用于学习这些数据,并在网络训练期间更新以学习整个图像的统计属性。这些特征与诸如颜色、位置、视点和模型等其他属性结合,并输入到Transformer层以挖掘最终的全局特征向量。此外,车辆图像被分为五个类别(前、后、顶、侧),因此图像块也被分为五个类别并使用Transformer层提取加权局部特征。同样,作者[73]开发了MART14框架,以高效地发现前centered全局特征,提取更具有区分性的局部特征,并证明被遮挡的局部特征。首先,为了消除全局特征上的背景效应,车辆图像Mask被估计采用U-Net与SEResNeXt50,预测每个像素的类别标签(Mask值),像素只能收到五个类别标签中的一个,分别是车辆的前、后、顶、侧,用自然数1到4表示。车辆Mask被划分为重叠的块,然后通过线性投影层将其映射到语义特征域。同时,原始车辆图像直接被划分为几个块,然后被flatten和通过线性投影层转换为标记特征域。
语义特征图、标记特征图及其位置信息被 ConCat 起来构建Transformer网络的输入,以产生前centered全局特征。在第二步中,为每个车辆图像构建一个有向GCN,通过将相应的语义特征图进行划分。然后,将GCN的邻接矩阵输入到Transformer层以发现局部特征。此外,GCN用于推理被其他物体遮挡的车辆的局部特征。此外,在Z. Li等人[64]的研究中,作者专注于在没有标注的车辆图像中去除背景效应。更具体地说,他们提出了SMNet,由两个独立的模块NPF和SFE组成,分别负责背景效应减少和细粒度特征发现。NPF将ViT扩展为一个噪声滤波器,在不需要标注的情况下检测背景并消除其影响。SFE使用自注意力机制提取车辆的最显著特征。尽管这个模型看起来是自动化的,并且具有非常低的计算复杂性,但与类似的研究相比,它缺乏足够的特征来实现高性能。
Iii-B3 Knowledge-based Methods
在车辆ReID的背景下,知识指的是除视觉外观特征和车辆属性之外的空间-时间或文本属性。空间-时间属性包括车辆轨迹、摄像头位置和周围摄像头、天气条件、白天状态等。知识-based方法旨在利用视觉特征和车辆属性的外部知识进行车辆ReID。通常,无法在这些方法和其他使用车辆属性和语义特征域的Transformer-based特征学习方法之间划清明确的界限。然而,使用空间-时间线索对于知识-based方法与其他类别区分开来是必要的。
知识-based方法利用空间-时间信息来增强视觉特征并改进检索结果。例如,Y. Shen等人[32]将视觉外观、时间戳和摄像头地理位置定义为视觉-空间-时间状态,并引入两阶段架构来考虑视觉-空间-时间状态并有效改进车辆ReID结果。它通过优化链式MRF15模型来在第一阶段生成 Query 和库图像的时空轨迹。LSTM网络然后验证轨迹,Siamese-CNN计算相似度分数以实现稳健的车辆ReID性能。同样,N. Jiang等人[12]提出了一个两部分的框架,包括CNN基础 Backbone 网络来增加车辆ReID模型的泛化能力。这些部分旨在提取颜色、型号和外观特征。还提出了一种重新排序技术,用于在不同摄像头的车辆图像之间建立空间-时间关系并重新排序相似的外观检索结果。此外,J. Peng等人[77]开发了一个两阶段的schema,第一阶段使用多任务深度网络来发现独特的特征,并在第二阶段采用空间-时间重新排序模块来改进深度网络的结果。在X. Liu等人[48]的研究中,提出了PROVID16 schema,用于考虑车辆ReID的视觉特征、车牌、摄像头位置、上下文信息和基于数据集统计的时空相似性。
此外,在[78]中,利用空间-时间信息来填充车辆ReID任务中的视觉特征的不足。DenseNet121是一个卷积神经网络,用于发现视觉特征并检索每个 Query 的一组图像。然后,结果集中的位置和时间戳被用于形成一个转移时间矩阵,并过滤出异常值和不相关的图像。同样,在研究X. Tan等人的工作中,提出了一种多摄像机车辆ReID方法,该方法在MCMT任务中利用多摄像机空间-时间信息对结果图像施加某些约束并重新排序。J. Tu等人[76]应用了一个两分支CNN基础的基于注意力的模块来发现全局和局部视觉特征以及一个空间-时间模块来建立一个距离函数以测量车辆图像之间的位置和时间戳相似性。而不是使用转移时间矩阵和空间-时间约束,距离函数使用随机变量分布来计算,可以更高效、更容易地扩展到大规模监控系统。
然而,在某些基于知识的方法中,收集空间-时间信息需要大量的手动标注工作,并使用MCMT任务,这损害了这些方法的 scalability 和 generalizability。因此,在最近的工作中,对采用所有空间-时间信息,尤其是相邻摄像机图像之间的关联以及车辆的运动路径,给予的关注较少。通常只使用其中的一些属性。例如,H. Li等人[5]提出了一种基于Transformer的schema,称为MsKAT17,该schema将视点和摄像机位置视为空间-时间信息,并将车辆颜色和类型作为知识向量。
Metric Learning
如图3所示,度量学习的关键目的是学习一个将物体图像映射到新视觉外观空间的表示函数,其中具有相同类别标签的目标尽可能地靠近彼此,而具有不同类别标签的目标则更远离彼此。对比损失和Triplet Loss是度量学习中使用的基本两种损失函数。此外,为了定制度量学习以用于车辆ReID任务,已经开发了各种损失函数。
首先,作者定义一些符号。训练集表示为和: 表示一个神经网络或任何参数函数作为嵌入函数,将输入样本映射到嵌入特征空间。在做出这些假设后,本节概述了损失函数及其在车辆ReID问题中的应用。
交叉熵损失
交叉熵损失,也称为soft-max损失,主要用于处理分类问题,并因此不包括在度量学习范围内。然而,由于在车辆RelD模型中,交叉熵损失与度量学习损失函数一起应用,因此在本小节中进行了介绍。
交叉熵损失计算每个训练样本的目标和预测类标签之间的差异。
Triplet Loss
此外,在R. Kumar等人[92]的研究中,对这些不同的采样方法在车辆ReID问题上的有效性进行了评估,证实了修改后的Triplet Loss与传统Triplet Loss的有效性相比。同样,为了区分正负样本之间的大和小绝对距离,在[93]中,通过向其函数中添加平衡项,对大采样Triplet Loss进行了改进。
J. Yu等人[94]提出了DTL23函数作为Triplet Loss的修改,用于自监督度量学习。具体来说,他们提出了一种无监督的车辆ReID模型,该模型从车辆图像中构建特征词典,并使用DTL对其进行处理,使用 未标注 的数据训练模型,并增强学习的特征的独特性。Y. Bai等人[95]提出了低收敛速度和特征判别力不足作为Triplet Loss的两个缺点,并引入了ICV24Triplet Loss来克服这些问题。他们采用了一种多任务学习策略,并共同优化了ICVTriplet Loss和交叉熵损失,以生成更多的有歧视性的车辆ReID特征。
此外,VAL和VARID提出了两种视角感知的Triplet Loss函数,以解决车辆ReID中类内相似性和类间相似性问题。特别是,内视角Triplet Loss函数已被定义为考虑同一视角不同车辆的歧视性,而外视角Triplet Loss函数已被部署为强加同一车辆样本在不同的视角下以彼此靠近。视角感知的损失函数是内视角和外视角损失函数的加权平均值。
- 群体群体学习损失
GGL27提出了一种方法,用于改进Triplet Loss中实例选择敏感性和低收敛速度的问题。首先,将训练数据集分成组,每组只包含同一车辆身份的所有图像。GGL然后更新模型权重,使具有相同身份的实例在嵌入特征空间中靠近彼此,并使不同组尽可能远离彼此。
- 其他损失函数
在前面各节中研究的损失函数之外,各种损失函数已在各种计算机视觉任务中采用,但作者所知,它们尚未应用于车辆ReID问题。
T. Lin等人[101]开发了focal损失,以解决密集目标检测中训练过程中经常出现的类不平衡问题。此外,范围损失函数和圆损失被引入,以降低类内离散度,同时增加类间相似度。同样,中心损失已在面部识别任务中使用,以提高特征的判别力。多粒度排名损失已在车辆ReID中引入,以实现最具有判别力的深度特征。多类N对损失作为传统三元的通用化,以克服慢收敛问题。此外,在研究X. Wang等人[104]中,提出了排名列表损失,以实现快速收敛和高性能的度量学习,并在研究E. Kamenou等人[34]中,已在车辆ReID任务中使用。
IV Unsupervised Vehicle Re-Identification
近年来,基于卷积神经网络(CNN)的深度学习技术的迅速发展导致了各种监督车辆重识别(ReID)方法的出现。监督方法的性能主要取决于大规模特定领域的标注训练集的可用性,这需要一项耗资和耗时的任务来准备。特别是,训练集不足会导致监督模型在转移到实际的大规模监控系统时,效率会以指数下降。从学者的角度来看,无监督学习是克服这些限制的有效方法,无需标注训练集即可从数据集中捕捉最具有意义模式。
基于深度学习的无监督方法通常基于迁移学习发展,其中在一个数据集上训练的模型被微调或适应以在不同的但相关的数据集上工作,作为目标域。根据源域和目标域是否已标记,迁移学习可以分为四类,如图4所示。由于这种分类,无监督车辆ReID技术可以分为两个主要组:无监督域自适应和完全无监督方法。本节提供对这些方法的全面概述。
Unsupervised domain adaption methods
无监督域自适应涉及在源域(一个领域)的数据上训练一个模型,并在没有标记的目标域(另一个领域)上适应以执行,在训练期间没有使用标记的目标域数据。目标是减少源域和目标域之间的差异,使模型在面对新且未见过的数据时能更好地泛化。在机器学习领域,已经提出了几种用于无监督域自适应的方法,包括域对抗训练、实例基础方法、自编码技术、特征对齐和基于GAN的方法。这些方法在模型训练期间使用各种策略来解决域间差异。例如,域对抗训练,如DANN ,利用域判别器在训练主任务时,同时对来自不同域的表示进行对齐。另一种方法是实例基础方法,它通过使用技术如MMD或CORAL 来匹配域分布来达到域分布的对齐。自编码技术,如Mean Teacher 、VAT 、PSUReID 和HyPASS ,通过伪标签化使用一致性正则化来稳定跨域偏移的预测。特征对齐技术,如Deep CORAL 和VAE ,通过修改模型架构或学习目标来显式地对齐域间特征,通常包括域特定的归一化或适应层。基于GAN的方法,例如CycleGAN 和DiscoGAN ,将GAN框架扩展到生成类似于源域的合成目标域数据,有效地减少了域间差异。据作者所知,关于无监督车辆ReID,特别是无监督域自适应的研究还很少,大部分研究集中在行人ReID任务上。
[115]和[116]的作者解决了由训练(源域)和测试(目标域)数据集之间的显著性能退化所引起的挑战。这个挑战源于不同领域的异质性,表现在各种图像特征上,包括不同的背景、光照、分辨率和摄像机视角的差异。为了克服这个挑战,J. Peng等人[115]提出了VTGAN,这是一个图像到图像的转换框架,旨在将源域的风格转移到目标域,同时保持它们的身份信息。此外,他们还提出了ATTNet,利用基于注意力的结构训练生成的图像,从而在车辆ReID的背景下发现更多的独特特征,同时抑制背景。
在C.-S. Hu等人[117]的研究中,车辆姿态的转换被表述为一个域适应任务。PTGAN被设计为接收表示车辆视点的关键点,然后生成一个对应于新视点的假图像来解决姿态变化问题。此外,在[118]中,探索了识别跨不同领域的相同车辆的任务,即包括白天和夜晚领域,作为一个域适应问题。介绍了一种基于GAN的框架,将两个输入图像转换为属于另一个领域的图像。然后,利用四分支Siamese网络学习两个不同领域图像之间的距离度量。
通过UDA学习的表示通常缺乏任务特定方向,这意味着它们通常不会同时具备分类判别和域可转移的特点。在UDA中的车辆ReID领域,已经致力于解决这一问题。值得注意的是,作者在[119]中引入了DTDN。这个框架将数据表示分为两个截然不同的部分:一个包含任务相关的元素,包括跨域任务相关的关键信息;另一个包含与任务无关的方面,包括无法转移或破坏性的数据。域间使用任务特定目标函数来调节这些部分。这种正则化明确地促进解耦,而不需要使用生成模型或解码器。R. Wei等人[116]在研究中首次引入了Transformer在UDA车辆ReID中的应用,以克服所提到的问题。这个基于Transformer的网络旨在增强图像中上下文信息的整合。具体来说,该网络适应地指导注意力在源域和目标域之间的判别性车辆组件。它包含一个域编码器模块来识别域不变的特征并减轻域相关因素的影响。此外,在每次训练周期开始之前,应用对比聚类损失对目标样本的特征表示进行聚类。这些聚类随后被分配标签,作为后续训练过程的伪身份来监督训练。
伪标记技术仍然是解决UDA车辆ReID任务的主要选择,因为它们的性能优越[29, 110]。然而,伪标记的有效性极大地取决于通过聚类方法直接影响伪标签生成的特定超参数的选择。为解决这个挑战,[111]中提出的方法HyPASS被引入为一种专门针对UDA聚类中伪标签超参数自动和循环调整的技术。
HyPASS包括伪标记方法框架中的两个基本组成部分:首先,超参数的选择取决于来自标记源数据的验证集;其次,通过特征判别性的条件对齐来优化超参数选择,这是一种通过分析源样本进行磨练的过程。同样,Z. Lu等人[29]介绍的MAPLD方法在UDA车辆ReID的背景下,同时增强了伪标记技术的精度,并有效地减少了伪标签噪声。
尽管基于UDA的方法在车辆ReID方面取得了成就,但它们通常需要来自不同领域的附加信息,这可能限制了它们在实际场景中的适用性。因此,有时完全无监督的方法由于与实际应用的兼容性而受到青睐,避免了从不同领域获取额外数据的需要。
Fully unsupervised methods
完全无监督方法可以直接从 未标注 的数据中提取有意义的信息,无需标注或标记数据。这种特性使得这些方法更适合和适应实际应用和场景。这些方法主要关注开发多种聚类技术和渐进训练策略作为其关键焦点。
渐进学习遵循逐步学习信息的方法,从简单的概念开始,逐步发展到更复杂的概念。这种方法已在不同的计算机视觉任务中广泛应用,如人脸识别,图像分类,行人ReID,等等。DUPL-VR 和VR-PROUD 专门针对车辆ReID的挑战,通过在无监督方式中实现渐进策略而设计。首先,将 未标注 的图像输入到基础CNN网络中,利用预先建立的权重来提取特征。这些特征经过聚类过程,获得作为"伪"标签的聚类ID。然后,应用特定的启发式约束来改进聚类结果,以增强聚类的准确性和稳定性。然后,使用聚类后的车辆作为额外CNN网络的校准,该网络的架构与基础CNN相同。这个迭代过程通过将不断增强的聚类纳入训练数据集,不断扩展训练数据集,实现无监督的自渐进学习,直到收敛。A. Zheng等人[123]提出了一种以渐进学习为中心的无监督车辆Re-ID的视角感知聚类方法。首先,使用视角预测网络提取视角细节,同时通过利用斥力损失函数学习每个样本的独特特征。然后,将特征空间根据预期的视角划分为不同的子空间。然后,应用渐进聚类算法来发现样本之间的精确关系,并增强网络的判别能力。
类似地,在[3]中提到的研究行人将渐进学习应用于解决无监督车辆ReID挑战。他们受到[124]的启发,主要关注区分可靠样本并实现网络的渐进算法训练。他们的方法有两个基本差异:首先,他们设计了一个多支路背部来捕捉全局和局部特征,利用这种双重信息来创建可靠聚类,从而减轻难以样本的影响。此外,他们的方法开始阶段分别利用全局和局部特征进行训练,然后逐渐过渡到这些特征的融合,因为网络的能力在后续阶段发展。
V Data Sets
不同的研究小组已经准备了许多标准数据集和基准来验证车辆ReID模型的优越性。本节将详细检查这些数据集,特别是它们的优点和局限性。
VehicleID
在中国一个小规模的白天,许多不重叠的监控摄像头收集了"车辆ID"数据集。平均每辆车有8.44张图像(总共221763张来自26267辆车)。
在这个数据集中,有90196张图像,其中10319辆车带有其模型信息(只有250个最流行的模型)。此外,考虑了车辆的两个方向,包括前或后,并且未标注视图信息。每辆车包含多于一个图像,因此该数据集适用于车辆检索任务。
这个数据集包括训练集和测试集。训练集中有110178张图像,涉及13134辆车,其中47,558辆带有车辆模型信息。测试集中有111585张图像,涉及13133辆车,其中42638张带有车辆模型信息。
这个数据集是在相对受限的情况下收集的,大约有20个摄像头在白天使用,包括两种方向视图,一些照明变化和简单的背景。因此,它不包含评估所有车辆ReID场景和挑战所需的基准。
这个数据集是在相对受限的情况下收集的,大约有20个摄像头在白天使用,包括两种方向视图,低照度变化,以及简单的背景。因此,它不包括所需的基准和数据来评估所有车辆ReID挑战。
VeRi-776
VeRi-776数据集是从VeRi数据集中构建的。大约20个交通监控摄像头在各种条件下收集了VeRi数据集,如方向、照度和遮挡。它包含619辆车的40000张图像,带有各种属性,包括车辆边界框、品牌、类型和颜色。
VeRi-776数据集是通过在三个方面扩展VeRi数据集而构建的:增加数据量、考虑车牌号码,并将车辆轨迹视为时空信息。它包含超过50000辆车辆图像,776辆车辆身份和约9000个轨迹。VeRi-776数据集包括训练集(576辆车辆和37781张图像)和测试集(200辆车辆和11579张图像)。
这个数据集是在一个单一的白天(下午4点到5点)在一个1平方公里的小区域内记录的,因此缺乏足够的测试床来评估所有车辆ReID的挑战。
VD1 and VD2
VD1和VD2数据集是从交通摄像头和监控视频中分别收集的车辆正面图像。在这两个数据集中,每辆车的颜色、型号和识别号码都被用作车辆图像的属性向量。
VD1数据集包含846358张图像,涉及141756辆车,有11种颜色和1232种型号,分为训练集和测试集。VD2数据集包含807260张图像,涉及79763辆车,有11种颜色和1112种型号。两个数据集的训练集和测试集的特性如表2所示。
这些数据集在车辆ReID挑战中大大简化了问题,因为大多数图像是从单一视图捕获的。因此,在这些数据集上的性能已经饱和,最近一种方法在VD1和VD2上分别实现了97.8和95.5%的准确率。
Vric
这个数据集包含由60个摄像头的复杂道路交通监控系统在白天和夜晚捕获的60,430张图像,涉及5622辆车辆的身份。VRIC包括24个监控位置,几乎覆盖了由分辨率、运动模糊、天气条件和遮挡差异引起的车辆几乎无限的外观。
这个数据集被分为训练集和测试集。训练集包括54,808张图像,涉及2811个身份,而测试集包括5622张图像,涉及2811个身份。所有图像都注明了汽车型号、颜色和类型。
尽管VRIC数据集考虑了车辆ReID在实际世界中的大多数挑战,但它仍然存在车辆类型和模型有限、缺乏详细车辆属性、图像面积较小以及训练集和测试集摄像机重叠等问题。
CityFlow
四十二个非重叠监控摄像头在美国一个中型城市十个交叉口之间收集了"CityFlow"数据集,两个摄像头之间的最大距离为2.5公里。该数据集包含229680辆车的图像,涉及666个不同的车辆身份,每个车辆至少通过两个摄像头。
这个数据集包含3.25小时的视频,包含如高速公路、公路和交叉口等地点。每个视频的起始时间偏移都进行了标注,大多数视频以每秒10帧的速度捕捉,分辨率至少为960p。
CityFlow是第一个支持多目标多摄像头(MTMC)车辆跟踪的公开基准。为此,表3中展示了五个场景。
此外,为了支持基于图像的车辆ReID,CityFlow的一部分被称为CityFlowReID已经开发出来。CityFlow-ReID包含总共56277辆车的图像和4.55个摄像头视图的平均666个不同的车辆身份。它包括一个训练集,包含333个车辆身份和36935张图像,以及一个测试集,包含333辆车和18290张图像。
VERI-Wild 2.0
VERI-Wild 2.0数据集是通过扩展VERI-Wild[128]来全面评估车辆ReID模型的判别和泛化能力而开发的。这个数据集是在一个超过200平方公里的都市区域的274个摄像头的巨大CCTV监控系统中,24小时收集了一个月的图像。
这个数据集包含许多同一型号的车辆,其样本包括非常复杂的背景、各种方向、严重的遮挡和不同的天气条件。它包含825042张图像,涉及42790个车辆身份,涵盖了各种场景,包括城市道路、街道交通灯区域、交叉口、高速公路收费站和匝道入口。有30%以上的身份是在白天和夜间录制的。此外,还标注了辅助属性、车辆颜色、车辆类型和车辆品牌,以提高车辆的视觉特征图。
这个数据集包含许多同一品牌或型号的车辆实例。平均而言,在雾天、雨天和晴天,每辆车的每个身份都被从不同的视点获取约59个样本。更具体地说,在雾天和雨天,分别有7.1%和3.48%的数据是在这两种天气条件下捕获的。
这个数据集被分为训练集和测试集,分别包含277797和398728张图像。此外,174个摄像头捕捉训练集,100个摄像头用于测试集。由于训练集和测试集中的摄像头不重叠,因此可以在不同的光线条件、视点和复杂背景下评估车辆ReID模型的判别和泛化能力。测试集被分为三个子集图像,以全面评估车辆ReID模型并研究方向、光线和天气变化的影响。
基于不同标准对所调查的数据集进行全面的车辆ReID比较,结果如表4所示。
VI Evaluation Strategies
现有文献中提出了许多评估策略,这些策略强调了数据集选择和性能指标是车辆ReID评估的关键方面。通过采用这些评估策略,研究行人和从业行人可以全面评估和比较不同车辆ReID方法的有效性,为该领域的进步铺平道路。
Dataset Selection
利用包含各种在不同场景、时间和环境条件下获得的车辆图像的标准数据集来评估研究挑战是至关重要的。在数据集中实现严格的训练和测试划分是确保公正评估和避免过拟合问题的关键。此外,可以通过在不同数据集上评估模型来衡量其通用性和鲁棒性。这验证了模型在训练数据之外的各种设置下的性能。此外,还需要考虑各种评估场景,如单张或多张重识别、相机内匹配或相机间匹配,以及在不同条件下的评估,如遮挡或光照变化。
前面部分提供了一个对已建立的用于评估车辆ReID模型数据集的全面回顾。
Performance Metrics
重新识别算法有效性的常用度量指标包括排名、mAP1、精确率-召回曲线和CMC2曲线。
排名比例
在车辆ReID中,对车辆进行排名的过程需要对 Query 车辆图像提取的特征与所有 gallery 中的图像进行彻底比较。这种比较使得图像按照相似度降序排列,最相似的图像排在较高的排名位置。对于选定的数据集的 ground truth,在有序列表中的第一个位置,其图像与 Query 图像对应的同一种车辆,表明了其排名并具有最重要的评估意义。
排名比例标准是通过将指定排名中准确重新识别的 Query 图像数量除以测试集中 Query 图像的总数来推导的。这个度量指标直接表明系统在预定义排名内精确重新识别车辆的有效性。例如,排名-k时的排名比例显示了算法在 Query 结果中正确识别的车辆图像数量,这些图像的排名不超过k。
mAP(平均精确率)
精度(Precision)和召回率(Recall)虽然作为单一值标准有价值,但它们基于 ReID 方案检索的所有图像。在车辆 ReID 的背景下,由于模型提供了图像的排名列表,因此考虑每个图像在列表中的位置是有益的。通过在列表中的每个位置计算精度和召回率,可以实现精度-召回曲线。平均精度(AP)的定义如下:
CMC (查准率-查全率曲线)
VII Discussion and Challenges
为了根据所提出的分类法评估基于深度学习的车辆 ReID 方法,表5 展示了使用 Veri-776 和 VehicleID 数据集的最先进方法在车辆 ReID 上的性能比较。显然,基于 Transformer 的特征学习和度量学习在与其他类别相比表现出了优越性能。
MsKAT 是一种基于知识的方法,其效率来源于使用了一个多尺度知识感知的 Transformer,其高性能可以归因于 Transformer 架构的战略性集成。此外,由于训练和测试域之间固有的差异,无监督方法的有效性,尤其是域适应技术,显著降低。这种域之间的适应性在实际车辆 ReID 任务中造成了巨大的挑战。
此外,为了衡量数据集的复杂性和模型在实际挑战中的适应性,作者在 VERI-Wild 和 VERI-Wild 2.0 数据集上呈现了一些最先进方法的表现评估。表5、VI 和 VII 的分析显示 VERI-Wild 2.0 数据集的高复杂性导致模型准确度的降低。因此,该数据集是评估车辆识别模型的合适基准。
智能视频监控系统的广泛应用导致了车辆 ReID 需求的急剧增长。尽管在一段时间内进行了大量和持续的努力,但该领域主要面临两个显著挑战。首先,在同一辆车的不同模式下捕获的图像中观察到的内插差异,包括摄像机视图、车辆视角和捕捉时间的差异。其次,在不同车辆之间遇到的实例相似性,特别是在共享相同特性(如颜色、类型和制造商)的情况下。此外,在将车辆 ReID 应用于交通监控场景时,不同摄像机之间的图像分辨率、不同的摄像机角度、天气条件和不同的照明条件会导致车辆外观的巨大差异,这给车辆 ReID 带来了巨大的挑战。下面解释了车辆 ReID 面临的问题的复杂性和挑战。
Viewpoint Variability
车辆在外观上可能会因摄像头角度、距离和方向的变化而出现显著差异。为了克服这些视点变化,确保识别的一致性,提取视点不变的特征仍然具有挑战性。
Appearance Variations
外部因素,如照明条件、天气、遮挡或修改(增加/减少配件),可能会改变车辆的外观,使一致的识别变得具有挑战性。
Scale and Resolution
车辆图像在不同的摄像机上可能具有不同的分辨率和缩放,这会影响特征提取和匹配的准确性。
Intra-Class Variability
同一品牌和型号的车辆由于修改、不同版本或磨损等原因可能表现出显著的视觉差异,这使得在相似车辆之间进行区分变得更加复杂。
Limited Annotated Data
尽管存在各种不同的数据集,但是覆盖所有可能情况的标注数据仍然不足,这仍然是一个重大的挑战,它对训练出强大的模型造成了困难,同时也阻碍了准确和泛化性算法的开发。
Real-time Processing
显然,深度学习模型面临指数级的时间复杂性,这是它们在实时应用中面临的一个持久且显著的障碍。因此,在实时交通监测或管理系统中准确重新识别车辆需要部署具有快速处理能力的算法。
Privacy and Ethical Concerns
平衡识别的有效性与尊重隐私权,尤其是在公共监视中,是一个关键的挑战。
VIII Conclusion
车辆 ReID 领域关注的是从分布在不同交通环境下的摄像机网络获取的车辆图像之间的关联。智能视频监控系统的广泛采用催生了车辆 ReID 技术的显著需求。这一任务在车辆为中心的技术领域中具有首要的重要性,作为实现智能交通系统(ITS)和开发智能城市的倡议的关键催化剂。深度学习的最新进展显著加速了车辆 ReID 技术的演变。本文对应用于车辆 ReID 的深度学习方法进行了全面的探索。
本文提出的方法可以分为两个主要类别:有监督方法和无监督方法。在有监督方法中,模型主要关注从车辆图像中获取独特的视觉特征,将其视为分类问题。相反,其他模型优先考虑通过应用特定的损失函数进行深度度量学习。无监督方法试图从数据中提取相关信息,而无需考虑类标签,分为两个截然不同的组:无监督域自适应和完全无监督方法。本文对已建立的标准化数据集和评估标准进行了详细的审查,并详细分析了来自最先进论文的实验结果。本文旨在提供一个指导框架和有价值的资源,以指导该领域的未来研究。
#GenAD
本文提出了一个用于从视觉输入进行更好规划的生成式端到端自动驾驶(GenAD)框架。研究了传统的自动驾驶感知、预测和规划的串行设计,并提出了一个全新的生成式框架,以实现高阶自车-agent交互,并通过学习的结构先验生成更准确的未来轨迹。中科慧拓和中科院自动化所最新提出的GenAD---超越UniAD
生成式人工智能(Generative AI)正催生出科技领域的一场创新革命,其中ChatGPT作为开创性的代表,展示了强大的自然语言处理和生成能力。本文将生成式人工智能(Generative AI)和端到端自动驾驶技术结合,提出生成式端到端自动驾驶GenAD。GenAD提出以实例为中心的场景表示,首先将周围场景转换为地图和感知实例。然后,使用变分自编码器在结构化隐空间中学习未来轨迹分布,用于轨迹先验建模。进一步采用时序模型来捕捉隐空间中的agent和自车运动,以生成更有效的未来轨迹。最终,GenAD通过在学习的结构化隐高斯空间分布中采样,并使用学习的时序模型生成未来信息,同时执行运动预测和规划。GenAD超越CVPR2023 best paper UniAD,在广泛使用的nuScenes基准测试中进行的实验证明,所提出的GenAD在以视觉为中心的端到端自动驾驶方面取得了SOTA的性能。
中科慧拓技术团队新成果
中科慧拓技术团队和中科院自动化所共同提出的生成式端到端自动驾驶模型GenAD,将生成式人工智能(Generative AI)和端到端自动驾驶技术结合,是业界首个生成式端到端自动驾驶模型 。该技术颠覆了UniAD的渐进式流程端到端方案,探讨了一种新的端到端自动驾驶范式,关键在于采用生成式人工智能的方式预测自车和周围环境在过去场景中的时序演变方式。
技术上本方案提出以实例为中心的场景表示,首先将周围场景转换为地图和感知实例。然后,使用变分自编码器在结构化隐空间中学习未来轨迹分布,用于轨迹先验建模。进一步采用时序模型来捕捉隐含空间中的agent和自车运动,以生成更有效的未来轨迹。最终,GenAD通过在学习的结构化隐高斯空间分布中采样,并使用学习的时序模型生成未来信息,同时执行运动预测和规划。
该模型在城市场景数据集nuScenes已经取得了SOTA的性能,并在实时性能上远超UniAD。同时,中科慧拓技术团队正在进行该技术方案的场景迁移,未来该技术计划推广到矿区自动驾驶场景,助力矿区自动驾驶应用落地。
直接从原始传感器生成规划结果一直以来都是自动驾驶的一个长期期望解决方案,并近年来越来越受到关注。大多数现有的端到端自动驾驶方法将这个问题分解为感知、运动预测和规划。然而,本文认为传统的渐进式流程仍然不能全面地建模整个交通演化过程,例如自车与其他交通参与者之间的未来互动以及结构轨迹先验。在本文中,本文探讨了一种新的端到端自动驾驶范式,关键在于预测自车和周围环境在过去场景中的演变方式。本文提出了GenAD,这是一个将自动驾驶转化为生成建模问题的框架。GenAD提出以实例中心的场景表示,首先将周围场景转换为地图和感知实例。然后,使用变分自编码器在结构化隐空间中学习未来轨迹分布,用于轨迹先验建模。进一步采用时序模型来捕捉隐含空间中的agent和自车运动,以生成更有效的未来轨迹。最终,GenAD通过在学习的结构化隐高斯空间分布中采样,并使用学习的时序模型生成未来信息,同时执行运动预测和规划。在广泛使用的nuScenes基准测试中进行的实验证明,所提出的GenAD在以视觉为中心的端到端自动驾驶方面取得了SOTA的性能。
问题背景
视觉为中心的自动驾驶近年来得到了广泛研究,因其经济便利性而备受关注。虽然研究人员在各种任务中推动了以视觉为中心的自动驾驶的极限,包括3D物体检测、地图分割和3D语义占用预测,但最近以视觉为中心的端到端自动驾驶的进展揭示了一条直接从原始传感器产生规划结果的潜在而优雅的技术路径。
大多数现有的端到端自动驾驶模型由多个模块组成,遵循感知、运动预测和规划的流程。例如,UniAD进一步渐进性地执行地图感知、检测、跟踪、运动预测、占用预测和规划模块,以提高系统的鲁棒性。研究还观察到,使用规划目标可以提高中间任务的性能。然而,现有流水线的序列设计忽略了现有Pipeline中预测和规划之间可能的未来交互,GenAD认为这种交互对准确的规划很重要。例如,自车的车道变化会影响后方车辆的行动,并进一步影响自车的规划。这种高阶交互无法通过当前设计在规划之前进行运动预测有效建模。此外,未来轨迹具有高度结构化并共享一个共同的先验(例如,大多数轨迹都是连续的直线)。然而,大多数现有方法未能考虑这个结构先验,导致不准确的预测和规划。
详解GenAD
图 1生成式端到端自动驾驶框架图
提出了一个生成式端到端自动驾驶(GenAD)框架(如图1所示),将自动驾驶建模为一个轨迹生成问题,以释放端到端方法的全部潜力。GenAD提出了一个场景表示器,用于获取以实例为中心的场景表示,聚焦于实例但也整合了地图信息。为实现这一点,使用一个骨干网络提取每个周围摄像头的图像特征,然后将其转换为3D鸟瞰图(BEV)空间。进一步使用交叉注意力从BEV特征中提炼高级地图和agent token。然后,添加一个自车token,并使用自车-agent自注意力捕捉它们的高阶交互。通过交叉注意力进一步注入地图信息以获得具有地图感知的实例标记。为了建模未来轨迹的结构先验,学习一个变分自编码器,将地面实况轨迹映射到考虑运动预测和驾驶规划的不确定性的高斯分布。然后,使用一个简单而有效的门控循环单元(GRU)进行自回归,以建模结构化隐空间中的实例移动。在推理过程中,从学习的分布中采样,条件是以实例为中心的场景表示,因此可以预测不同的可能未来。GenAD可以同时执行运动预测和规划,使用统一的未来轨迹生成模型。在广泛使用的nuScenes基准测试上进行了大量实验证明,评估了所提出的GenAD框架的性能。基于生成建模,GenAD在高效性能方面取得了最先进的基于视觉的规划性能。
1)以实例为中心的场景表示
端到端自动驾驶的第一步是对传感器输入进行感知,以获取对周围场景的高级描述。这些描述通常包括语义地图和实例边界框。为了实现这一点,GenAD遵循传统的以视觉为中心的感知流程,首先提取鸟瞰图(BEV) 特征,然后在此基础上进行进一步的地图和边界框特征的优化。
由于预测和规划主要关注agent和自车的实例,因此提出了一种实例为中心的场景表示,以全面且高效地呈现自动驾驶场景。首先将自车token添加到学到的agent标记中,构建一组实例tokens。
现有方法通常以串行方式执行运动预测和规划,忽略了未来自车运动对agent的影响。例如,自车的车道变化可能会影响后方车辆的行动,使得运动预测结果不准确。与之不同的是,GenAD通过对实例标记执行自注意力来实现自车和其他agent之间的高阶交互:
SA (Q ,K ,V) 表示由使用 Q、K 和 V 作为查询、键和值的自注意力层组成的自注意力块。
此外,为了进行准确的预测和规划,agent和自车都需要了解语义地图信息。因此,GenAD在更新后的实例token和学到的地图token之间使用交叉注意力,获取地图感知的实例为中心的场景表示:
学到的实例标记 I 结合了高阶agent-自车交互,并了解了学到的语义地图,这些地图紧凑但包含执行运动预测和轨迹规划所需的所有必要地图和实例信息。
2)轨迹先验建模
其他车辆的运动预测目标和自车规划共享相同的输出空间,本质上是相同的。它们都旨在在给定语义地图和与其他车辆的交互的情况下,产生所关注实例的高质量真实轨迹。因此,提出的GenAD的目标可以被表述为在给定具有地图感知的以实例为中心的场景表示 I 的情况下,推断未来轨迹 T。
自车和其他车辆的轨迹都具有高度结构化(例如,连续性)并遵循一定的模式。例如,大多数轨迹是直线,表示车辆以恒定速度行驶,而有些轨迹是曲线,表示车辆右转或左转时曲率近似恒定。只有在极少数情况下,轨迹会呈锯齿状。考虑到这一点,GenAD采用变分自编码器(VAE)架构来学习一个隐空间 Z 以建模轨迹的先验知识。具体而言,使用未来轨迹groundtruth编码器,来建模未来轨迹的隐含空间 Z 。
其中,N(μ,σ^2)表示均值为μ,标准差为σ的高斯分布。
3)隐含未来轨迹生成
在获得未来轨迹的隐含分布作为先验之后,需要明确地从隐含轨迹空间 Z 解码它们。虽然一种直接的方法是使用基于MLP的解码器直接在BEV空间中输出轨迹点以建模 ,但它未能对交通agent和自车的时间演变进行建模。为了考虑不同时间戳上实例的时间关系,将联合概率分布分解如下:
然后,采用门控循环单元(GRU)作为未来轨迹生成器,以建模实例的时间演变。与直接输出整个轨迹的单一解码器相比,MLP解码器执行的任务更简单,仅对BEV空间中的位置进行解码,而GRU模块则模拟了隐含空间Z中agent的移动。因此,考虑到在这个学习结构化隐空间中的先验知识,生成的轨迹更加真实和可信。
4)生成式端到端自动驾驶
在本小节中,介绍了提出的GenAD框架的整体架构,用于以视觉为中心的端到端自动驾驶。给定周围摄像机信号 s 作为输入,首先使用图像骨干网络提取多尺度图像特征 F,然后使用可变形注意力将它们转换为BEV空间。将过去 p 帧的BEV特征对齐到当前自车坐标,得到最终的BEV特征 B。使用全局交叉注意力和可变形注意力分别对地图标记 M 和agent标记 A 进行细化。为了建模交通agent与自车之间的高阶交互,将agent标记与自车标记结合,并在它们之间执行自注意力,构建一组实例标记 I。使用交叉注意力将语义地图信息注入到实例标记 I 中,以促进进一步的预测和规划。
其中,λplan、λmap和λdet是平衡因子。提出的GenAD可以以高效的端到端方式进行训练。GenAD将端到端自动驾驶建模为一个生成问题,通过在结构化隐空间中进行未来预测和规划,考虑了现实轨迹的先验,从而产生高质量的轨迹预测和规划。
GenAD实验结果
表1. 在nuScenes 验证集上与最先进的方法在运动规划性能方面的比较。
在表1中将GenAD与最先进的端到端自动驾驶方法进行了比较。可以看到,GenAD在所有方法中取得了最佳的L2误差,并且具有高效的推理速度。尽管UniAD 在碰撞率方面优于GenAD的方法,但它在训练过程中使用了额外的监督信号,如跟踪和占用信息,这些信息已经被验证为在避免碰撞方面至关重要的信息 。然而,这些在3D空间中的标签很难标注,使得使用更少的标签实现有竞争力的性能并不是一件轻松的事情。GenAD比UniAD更高效,展示了性能和速度之间的强大平衡。
GenAD可视化效果
图2. GenAD结果的可视化
可以看到,在包括直行、超车和转弯在内的各种场景中,GenAD产生了比VAD更好且更安全的轨迹。对于涉及多个agent的复杂交通场景的挑战性情境,GenAD仍然展现出良好的结果。
总结
本文提出了一个用于从视觉输入进行更好规划的生成式端到端自动驾驶(GenAD)框架。研究了传统的自动驾驶感知、预测和规划的串行设计,并提出了一个全新的生成式框架,以实现高阶自车-agent交互,并通过学习的结构先验生成更准确的未来轨迹。在广泛采用的nuScenes数据集上进行了大量实验证明了所提出的GenAD框架的规划性能处于领先水平。在未来,探索其他生成建模方法,如生成对抗网络或扩散模型,用于端到端自动驾驶将是一个有趣的方向。
为了消除高成本数据收集的限制,并增强模型的泛化能力,从网络获取了大量数据,并将其与多样化和高质量的文本描述配对。由此产生的数据集累积了超过2000小时的驾驶视频,涵盖了世界各地具有多样化天气条件和交通场景的区域。本文提出了GenAD,它继承了最近潜在扩散模型的优点,通过新颖的时间推理模块处理驾驶场景中的挑战性动态情况。它可以以zero-shot的方式泛化到各种未见的驾驶数据集,超越了一般或驾驶特定的视频预测模型。此外,GenAD可以被调整为一个动作条件的预测模型或一个运动规划器,具有在真实世界驾驶应用中的巨大潜力。
自动驾驶agents作为高级人工智能的一个有前景的应用,感知周围环境,构建内部世界模型表示,做出决策,并作出响应行动。然而,尽管学术界和工业界已经进行了数十年的努力,但它们的部署仍然受到限制,仅限于某些区域或场景,并且不能无缝地应用于整个世界。其中一个关键原因是学习模型在结构化自动驾驶系统中的有限泛化能力。通常,感知模型面临着在地理位置、传感器配置、天气条件、开放目标等多样化环境中泛化的挑战;而预测和规划模型则面临着无法泛化到具有不确定未来的情景和不同驾驶意图的挑战。受人类学习感知和认知世界的启发,本文主张将驾驶视频作为通用接口,用于泛化到不同的环境和动态未来。
基于这一观点,预测驾驶视频模型被认为是完全捕捉驾驶场景世界知识的理想选择(如上面图1所示)。通过预测未来,视频预测器基本上学习了自动驾驶的两个关键方面:世界如何运行,以及如何在复杂环境中安全操控。
近年来,社区已经开始采用视频作为表示观察行为和动作的接口,用于各种机器人任务。对于诸如经典视频预测和机器人技术的领域,视频背景主要是静态的,机器人的移动速度较慢,视频的分辨率较低。相比之下,对于驾驶场景,它需要应对室外环境高度动态化、agents具有更大运动范围以及传感器分辨率覆盖大范围视野的挑战。这些差异导致了自动驾驶应用面临着重大挑战。
幸运的是,在驾驶领域已经有一些初步尝试开发视频预测模型。尽管在预测质量方面取得了令人鼓舞的进展,但这些尝试并没有像经典机器人任务(例如控制)中那样实现理想的泛化能力,而是局限于限定的情景,例如交通密度低的高速公路,以及小规模的数据集,或者受限的条件,难以生成多样化的环境。如何发掘视频预测模型在驾驶领域的潜力仍然鲜有探索。
受以上讨论的启发,我们的目标是构建一个用于自动驾驶的视频预测模型,能够泛化到新的条件和环境。为了实现这一目标,需要回答以下问题:
(1)如何以可行和可扩展的方式获取数据?
(2)我们如何构建一个预测模型来捕捉动态场景的复杂演变?
(3)如何将(基础)模型应用于下游任务?
规模化数据。 为了获得强大的泛化能力,需要大量且多样化的数据。受基础模型从互联网规模数据中学习成功的启发,我们从网络和公共许可的数据集构建我们的驾驶数据集。与现有的选项相比,由于其受到监管的收集流程的限制,现有的选项在规模和多样性上受到限制,而在线数据在几个方面具有很高的多样性:地理位置、地形、天气条件、安全关键场景、传感器设置、交通元素等。为了确保数据具有高质量且适合大规模训练,我们通过严格的人工验证从YouTube上详尽地收集驾驶记录,并删除意外损坏帧。此外,视频与各种文本级别的条件配对,包括利用现有的基础模型生成和优化的描述,以及由视频分类器推断出的高级指令。通过这些步骤,我们构建了迄今为止最大的公共驾驶数据集OpenDV-2K,其中包含超过2000小时的驾驶视频,比广泛使用的nuScenes数据集大374倍。
通用预测模型。 学习一个通用的驾驶视频预测器面临几个关键挑战:生成质量、训练效率、因果推理和视角剧烈变化。我们通过提出一种新颖的两阶段学习的时间生成模型来解决这些方面的问题。为了同时捕捉环境细节、提高生成质量和保持训练效率,我们借鉴了最近潜在扩散模型(LDMs)的成功经验。在第一阶段,我们通过对OpenDV-2K图像进行微调,将LDM的生成分布从其预先训练的通用视觉领域转移到驾驶领域。在第二阶段,我们将所提出的时间推理模块插入到原始模型中,并学习在给定过去帧和条件的情况下预测未来。与传统的时间模块不同,我们的解决方案包括因果时间注意力和分离的空间注意力,以有效地建模高度动态的驾驶场景中的剧烈时空转移。经过充分训练,我们的自动驾驶生成模型(GenAD)能够以零样本方式泛化到各种场景。
仿真和规划的扩展。 在进行视频预测的大规模预训练之后,GenAD基本上了解了世界的演变方式以及如何驾驶。我们展示了如何将其学习到的知识应用于真实世界的驾驶问题,即仿真和规划。对于仿真,我们通过使用未来的自车轨迹作为额外条件,对预先训练的模型进行微调,将未来的想象与不同的自车行为联系起来。我们还赋予了GenAD在具有挑战性的基准测试中执行规划的能力,通过使用轻量级规划器将潜在特征转化为自车未来轨迹。由于其预先训练能力能够准确预测未来帧,我们的算法在仿真一致性和规划可靠性方面展现出了令人期待的结果。
OpenDV-2K Dataset
OpenDV-2K数据集 这是一个用于自动驾驶的大规模多模态数据集,以支持通用视频预测模型的训练。其主要组成部分是大量高质量的YouTube驾驶视频,这些视频来自世界各地,并经过精心筛选后被收入我们的数据集中。利用视觉-语言模型自动生成了这些视频的语言标注。为了进一步提高数据集中的传感器配置和语言表达的多样性,将7个公开授权的数据集合并到我们的OpenDV-2K中,如表1所示。
因此,OpenDV-2K总共包含了2059小时的视频与文本配对,其中1747小时来自YouTube,312小时来自公开数据集。使用OpenDV-YouTube和OpenDV-2K来指定YouTube拆分和整体数据集,分别表示YouTube拆分和整体数据集。
与先前数据集的多样性比较
表1提供了与其他公开数据集的简要比较。除了其显著的规模外,提出的OpenDV-2K在以下各个方面都具有多样性。
全球地理分布。 由于在线视频的全球性质,OpenDV-2K覆盖了全球40多个国家和244个城市。这相比于先前的公开数据集是一个巨大的改进,先前的数据集通常只收集在少数受限制的地区。在图2中绘制了OpenDV-YouTube的具体分布。
开放式驾驶场景。 本数据集提供了大量的现实世界中的驾驶经验,涵盖了像森林、大雪等极端天气条件以及对交互式交通情况做出的适当驾驶行为等稀有环境。这些数据对于多样性和泛化至关重要,但是在现有的公开数据集中很少被收集。
无限制的传感器配置。 当前的驾驶数据集局限于特定的传感器配置,包括内在和外在的相机参数、图像、传感器类型、光学等,这给使用不同传感器部署学习模型带来了巨大挑战。相比之下,YouTube驾驶视频是在各种类型的车辆上录制的,具有灵活的相机设置,这有助于在使用新的相机设置部署训练模型时的稳健性。
迈向高质量多模态数据集
驾驶视频收集与筛选。 从广阔的网络中找到干净的驾驶视频是一项繁琐且成本高昂的任务。为了简化这个过程,首先选择了某些视频上传者,即YouTubers。从平均长度和整体质量来看,收集了43位YouTuber的2139个高质量前视驾驶视频。为了确保训练集和验证集之间没有重叠,从中选择了3位YouTuber的所有视频作为验证集,其余视频作为训练集。为了排除非驾驶帧,如视频介绍和订阅提醒,丢弃了每个视频开头和结尾一定长度的片段。然后,使用VLM模型BLIP-2 对每个帧进行语言上下文描述。进一步通过手动检查这些上下文中是否包含特定关键字,来移除不利于训练的黑色帧和过渡帧。数据集构建流程的示意图见图3,下面介绍如何生成这些上下文。
YouTube视频的语言标注。 为了创建一个可以通过自然语言控制以相应地模拟不同未来的预测模型,为了使预测模型可控并提高样本质量,将驾驶视频与有意义且多样化的语言标注配对至关重要。为OpenDV-YouTube构建了两种类型的文本,即自车指令和帧描述,即"指令"和"上下文",以帮助模型理解自车动作和开放世界的概念。对于指令,在Honda-HDD-Action上训练了一个视频分类器,用于标注4秒序列中的自车行为的14种类型的动作。这些分类指令将进一步映射到预定义字典中的多个自由形式表达。对于上下文,利用一个成熟的视觉语言模型BLIP-2,描述每个帧的主要目标和场景。有关标注的更多细节,请参阅附录。
用公共数据集扩大语言范围。 考虑到BLIP-2标注是为静态帧生成的,没有理解动态驾驶场景,例如交通灯的过渡,我们利用几个提供驾驶场景的语言描述的公共数据集。然而,它们的元数据相对稀疏,只有一些诸如"晴天的道路"之类的词语。使用GPT进一步提升它们的文本质量,形成描述性的"上下文",并通过对每个视频剪辑的记录轨迹进行分类,生成"指令"。最终,我们将这些数据集与OpenDV-YouTube集成,建立OpenDV-2K数据集,如表1的最后一行所示。
GenAD框架
本节介绍了GenAD模型的训练和设计。如图4所示,GenAD分为两个阶段进行训练,即图像域转移和视频预测预训练。第一阶段将通用的文本到图像模型调整到驾驶领域。第二阶段通过提出的时间推理块和修改的训练方案,将文本到图像模型扩展为视频预测模型。最后,探讨了如何将预测模型扩展到动作条件预测和规划。
图像域迁移
视频预测预训练
在第二阶段,利用连续视频的几帧作为过去的观察,GenAD被训练来推理所有视觉观察,并以可信的方式预测未来的几帧。与第一阶段类似,预测过程也可以由文本条件指导。然而,由于两个基本障碍,预测高度动态的驾驶世界在时间上是具有挑战性的。
- 因果推理: 为了预测遵循驾驶世界时间因果关系的合理未来,模型需要理解所有其他agents和自车的意图,并了解潜在的交通规则,例如,交通信号灯转换时交通将如何变化。
- 视图变化剧烈: 与Typical视频生成基准相反,后者主要具有静态背景,中心目标的移动速度较慢,驾驶的视图随时间变化剧烈。每个帧中的每个像素可能会在下一个帧中移动到一个遥远的位置。
本文提出了时间推理block来解决这些问题。如图4(c)所示,每个block由三个连续的注意力层组成,即因果时间注意力层和两个解耦的空间注意力层,分别用于因果推理和模拟驾驶场景中的大的移位。
因果时间注意力。 由于第一阶段训练后的模型只能独立处理每个帧,本文利用时间注意力在不同的视频帧之间交换信息。注意力发生在时间轴上,并模拟每个网格特征的时间依赖性。然而,直接采用双向时间注意力在这里几乎无法获得因果推理的能力,因为预测将不可避免地依赖于随后的帧而不是过去的条件。因此,通过添加因果注意mask,限制注意力方向,鼓励模型充分利用过去的观察知识,并如实推理未来,就像在真实的驾驶中一样。在经验上发现,因果约束极大地使预测的帧与过去的帧保持一致。遵循通用做法,还在时间轴上添加了实现为相对位置嵌入的时间偏差,以区分序列的不同帧,用于时间注意力。
解耦的空间注意力。 由于驾驶视频具有快速的视角变化,在不同的时间步长中,特定网格中的特征可能会有很大的变化,并且很难通过时间注意力进行相关性和学习,因为时间注意力具有有限的感受野。考虑到这一点,引入了空间注意力来在空间轴中传播每个网格特征,以帮助收集用于时间注意力的信息。采用了一种解耦的自注意力变体,由于其具有线性计算复杂度,相对于二次完全自注意力,它更加高效。如图4(c)所示,这两个解耦注意层分别在水平和垂直轴上传播特征。
深度交互。 直觉上,第一阶段中调整的空间block独立地使每个帧的特征朝向照片逼真性,而第二阶段引入的时间block使所有视频帧的特征朝向一致性和一致性对齐。为了进一步增强时空特征交互,本文将提出的时间推理block与SDXL中的原始Transformer block交叉,即空间注意力,交叉注意力和前馈网络,如图4(b)所示。
零初始化。 与先前的做法类似,对于在第二阶段新引入的每个block,将其最终层的所有参数初始化为零。这样可以避免在开始时破坏经过良好训练的图像生成模型的先验知识,并稳定训练过程。
扩展。 依靠在驾驶场景中训练良好的视频预测能力,进一步挖掘了预训练模型在动作控制预测和规划方面的潜力,这对于真实世界的驾驶系统非常重要。在这里,探索了nuScenes上的下游任务,该任务提供了记录的姿态。
动作条件预测。 为了使我们的预测模型能够受到精确的自我行为控制并充当模拟器,使用成对的未来轨迹作为额外条件对模型进行微调。具体来说,使用Fourier embedding将原始轨迹映射到高维特征。经过线性层的进一步投影后,将其添加到原始条件中。因此,自我行为通过图4(b)中的条件交叉注意力层注入到网络中。
规划。 通过学习预测未来,GenAD获得了复杂驾驶场景的强大表示,这可以进一步用于规划。具体来说,通过冻结的GenAD的UNet编码器提取两个历史帧的时空特征,该编码器几乎是整个模型大小的一半,并将它们馈送到多层感知器(MLP)以预测未来的路标。通过冻结的GenAD编码器和可学习的MLP层,规划器的训练过程可以比端到端规划模型UniAD 加快3400倍,验证了GenAD学习的时空特征的有效性。
实验
设置与实验方案
GenAD在OpenDV-2K上分两个阶段学习,但具有不同的学习目标和输入格式。在第一阶段,模型接受(图像,文本)对作为输入,并在文本到图像生成上进行训练。将命令标注广播到包含的所有帧中,每4秒视频序列标注一个。该模型在32个NVIDIA Tesla A100 GPU上进行了300K次迭代训练,总批量大小为256。在第二阶段,GenAD被训练以在过去的潜变量和文本的条件下联合去噪未来的潜变量。其输入为(视频剪辑,文本)对,其中每个视频剪辑为2Hz的4秒。当前版本的GenAD在64个GPU上进行了112.5K次迭代训练,总batch大小为64。输入帧在两个阶段的训练中被调整为256×448的大小,并且以概率p = 0.1丢弃文本条件c,以启用无分类器的引导在采样中,这在扩散模型中通常用于改善样本质量。
视频预训练结果
与最近的视频生成方法的比较
将GenAD与最近的先进方法进行比较,使用OpenDV-YouTube、Waymo 、KITTI和Cityscapes上的未见过的地理围栏集合进行zero-shot生成方式。图5显示了定性结果。图像到视频模型I2VGen-XL和VideoCrafter1不能严格按照给定的帧进行预测,导致预测帧与过去帧之间的一致性较差。在Cityscapes上训练的视频预测模型DMVFN在其预测中遭遇了不利的形状扭曲,尤其是在三个未见过的数据集上。相比之下,尽管这些集合都没有包含在训练中,但GenAD表现出了显著的zero-shot泛化能力和视觉质量。
与nuScenes专家的比较
还将GenAD与最近可用的专门针对nuScenes训练的驾驶视频生成模型进行比较。表2显示,GenAD在图像保真度(FID)和视频连贯性(FVD)方面超过了所有先前的方法。
具体来说,与DrivingDiffusion相比,GenAD将FVD显著降低了44.5%,而没有将3D未来布局作为额外输入。为了公平比较,训练了一个模型变体(GenAD-nus)只在nuScenes数据集上进行训练。我们发现,尽管GenAD-nus在nuScenes上表现与GenAD相当,但它很难推广到未见过的数据集,例如Waymo,其中生成物会退化到nuScenes的视觉模式。相比之下,训练在OpenDV-2K上的GenAD在各个数据集上都表现出很强的泛化能力,如前图5所示。
在nuScenes上提供了语言条件预测样本,如图6所示,GenAD根据不同的文本指令模拟了相同起始点的各种未来。复杂的环境细节和自运动的自然过渡展示了令人印象深刻的生成质量。
消融研究
通过在OpenDV-2K的子集上进行75K步的训练,执行消融实验。从具有普通时间注意力的基线开始,逐渐引入我们提出的组件。值得注意的是,通过将时间块与空间块交错,FVD显著提高了(-17%),这是由于更充分的时空交互。时间因果关系和解耦的空间注意力都有助于更好的CLIP-SIM,改善了未来预测与条件帧之间的时间一致性。需要明确的是,表3中第四行和第三行显示的FID和FVD的轻微增加,并不真实反映了生成质量的下降,如[8, 10, 79]中所讨论的。每种设计的有效性如图7所示。
扩展结果
动作条件预测。 进一步展示了在nuScenes上微调的动作条件模型GenAD-act的性能,如图8和表4所示。给定两个起始帧和一个包含6个未来路径点的轨迹w,GenAD-act模拟了6个按照轨迹顺序的未来帧。为了评估输入轨迹w和预测帧之间的一致性,在nuScenes上建立了一个反向动力学模型(IDM)作为评估器,该模型将视频序列映射到相应的自车轨迹上。我们利用IDM将预测帧转换为轨迹ˆw,并计算w和ˆw之间的L2距离作为动作预测误差。具体来说,与具有文本条件的GenAD相比,GenAD-act将动作预测误差显著降低了20.4%,从而实现更准确的未来模拟。
规划结果。 表5描述了在nuScenes上的规划结果,其中可以获得自车的姿态真值。通过冻结GenAD编码器,并仅优化其顶部的附加MLP,模型可以有效地学习规划。值得注意的是,通过通过GenAD的UNet编码器预提取图像特征,规划适应的整个学习过程仅需在单个NVIDIA Tesla V100设备上花费10分钟,比UniAD规划器的训练高效3400倍。
结论
对GenAD进行了系统级开发研究,这是一个用于自动驾驶的大规模通用视频预测模型。还验证了GenAD学习表示适应驾驶任务的能力,即学习"世界模型"和运动规划。尽管在开放领域获得了改进的泛化能力,但增加的模型容量在训练效率和实时部署方面带来了挑战。设想统一的视频预测任务将成为未来关于表示学习和策略学习的研究的可扩展目标。另一个有趣的方向是将编码的知识提炼出来,用于更广泛的下游任务。
#BEV空间の多模感知算法
目前,自动驾驶技术已经愈发的成熟,很多车企都已经在自家的车辆产品上配备了自动驾驶算法,使车辆具备了感知、决策、自主行驶的能力,下图是一个标准的自动驾驶算法流程图。
图一:标准自动驾驶流程图
通过上面展示出来的标准自动驾驶流程图可以清晰的看出,整个自动驾驶流程包括五个子模块:
- 场景传感器:采用不同的数据传感器对当前的周围场景进行信息的采集工作,对于自动驾驶车辆来说,常见的数据采集传感器可以包括:相机(Camera),激光雷达(Lidar),毫米波雷达(Radar),超声波传感器(Ultrasonics)等等。
- 感知和定位:在获得了来自场景传感器采集到各种数据信息之后,会将采集到的相关信息送入到不同的感知和模型当中输出对当前环境的感知和定位结果,这里会涉及到的相关感知算法可以包括:车道线检测感知算法(Lane Detection),目标检测感知算法(Object Detection),语义分割感知算法(Semantic Segmentation),定位和建图算法(SLAM),高精地图算法(HD Maps)等等。
- 周围环境建模:在得到上一步各种感知模型的预测结果后,目前主流的做法是将各类感知算法输出的预测结果以车辆自身(Ego)为坐标系进行融合,从而构建一个周围环境感知行为的BEV空间预测地图,从而方便下游的规划和控制任务。
- 规划:在得到上一步输出的当前周围环境的BEV感知结果地图后,自动驾驶车辆上配备的路径规划算法会根据当前的交通规则以及车辆自身位姿设计相关的行驶路径,并根据行驶路径输出一套完整的相关驾驶行为决策。
- 控制:控制模块也就是整个自动驾驶流程的最后一步,此时的车辆会根据规划模块输出的一整套完成的驾驶行为决策进行判断,从而采取如转向(Steer),汽车加速(Accelerate),汽车减速(Brake)等相关的行为,实现对车辆的控制。
以上就是大致介绍了一下整个自动驾驶流程包括的所有内容,基本说明了一辆自动驾驶汽车从收集数据开始到最终完成驾驶行为的全过程。相信大家也可以看出,如果一辆自动驾驶汽车想要做出准确的决策,周围环境信息数据的采集 和感知和定位算法模型的预测结果扮演了整个驾驶流程中至关重要的角色。
那么你接下来,我们先重点介绍一下自动驾驶流程图的第一步:周围环境信息数据的采集模块:
相机传感器是目前自动驾驶中最常用的数据采集传感器之一,因其可以采集到具有丰富语义信息的图像数据,且价格低廉而被广泛采用。一般而言,相机传感器包括:针孔相机或者鱼眼相机。鱼眼相机在一些短范围内的感知具有广泛的应用前景,然而无论是哪种类型的相机传感器,在面对现实世界的驾驶场景当中,都面临着一些非常严峻的问题,相关问题列举如下:
- 相机传感器在光线较暗的情况下表现较差:因为相机这类图像传感器主要是利用光线照射到物体上进行成像,但是在这种有限的光照条件下,严重的阻碍了成像结果中物体语义表示的质量,从而影响模型最终输出的感知结果,直接影响了后续的规控等任务 。
- 相机会暴露在外部自然场景当中:目前的自动驾驶车辆中,普遍都是采用环视相机的采集方式,同时这类环视相机通常都是安装在自动驾驶车辆的外部,这就会导致环视相机会暴露在沙子,泥土,污垢,灰尘,雨雪或者杂草等环境中,对相机造成影响,从而间接的影响到相机的成像结果,或者外参矩阵,间接的影响后续的感知定位、规划、控制等任务中。
- 强烈太阳光的干扰:在某些自动驾驶场景当中,可能会存在着天气特别晴朗的情况,这就会导致太阳光线过于充足,太阳的眩光会导致相机传感器的镜头表面被过度的曝光,严重影响了相机传感器采集到的图像质量,阻碍了下游基于视觉的障碍物感知算法的预测效果, 进而直接影响到后续的规划、控制模块的决策结果。
通过上述提到的诸多现实问题可以看出,虽然相机传感器不仅价格低廉,而且可以为后续的障碍物感知算法提供丰富的目标语义信息,但是其受环境的影响是非常巨大的,这就表明我们需要在自动驾驶车辆上配备额外传感器的原因。我们发现超声波传感器具有低功耗,对物体的颜色、材料不敏感,还可以比相机传感器更好的抵抗环境中的强烈光线,同时可以进行比较准确的短距离目标检测,对自动驾驶的障碍物感知是具有很要的数据采集价值。
考虑到以上传感器因素,同时为了更好的匹配下游的规控任务,我们在本文中设计了一种端到端的基于CNN卷积神经网络的多模态感知算法,利用鱼眼相机传感器和超声波传感器作为输入,实现在BEV空间的障碍物感知任务。
论文链接:https://browse.arxiv.org/pdf/2402.00637.pdf;
网络模型的整体架构细节梳理
下图是我们提出的算法模型的整体框架图,在介绍本文提出的基于CNN卷积神经网络的多模态感知算法各个子部分的细节之前,我们先整体概括一下整个算法的运行流程。
- 首先是采用预处理步骤,将超声波传感器采集到的原始回波数据的幅度信息转换为卷积神经网络可以进行处理的2D图像形式的数据。
- 其次采用CNN卷积神经网络对每个模态传感器采集到的数据完成特征提取过程,并且将提取到的多个模态的特征进行融合,构建出最终的模态无关特征。
- 然后是将上一步得到的模态无关特征完成空间上的转换过程得到BEV空间下的特征。
- 最后是将BEV空间特征喂入到语义分割任务的解码器当中,得到像素级别的障碍物预测结果。
图二:基于CNN卷积神经网络的多模态感知算法整体流程图
单一模态特征提取编码器
图三:部分障碍物对应的鱼眼相机和超声波传感器的数据响应可视化结果
BEV空间坐标系的映射过程
因为我们要完成鱼眼相机的2D图像特征向3D的BEV空间特征的变换,我们采用了Kannala-Brandt相机模型来实现这一变换过程。相比于基于图像中心半径的距离来表示径向畸变不同,Kannala-Brandt算法模型将相机畸变看作为通过透镜的光入射角函数,如下图的公式(1)所示。
由于在BEV投影过程中,需要将2D的图像特征投影到3D的BEV空间中,这就需要确保世界坐标空间中特定的网格区域的表示是非常准确的。因此,我们考虑将每个来自特征金字塔的特征图进行裁剪,从而保证2D图像特征对应于现实世界空间中定义的最大边界的精确上下边界。因此为了更好的从特征图中裁剪出相应区域,我们从公式(2,3,4)中确定失真系数。通过使用具有相应焦距、失真参数、主点和世界坐标空间高度和深度的公式(1),我们可以获得表示现实世界空间坐标系的图像空间坐标(u, v),从而就可以确定变换过程中每个网格的最小和最大深度,从而完成特征金字塔不同尺度特征的裁剪过程,最后利用相机的外参矩阵实现将图像特征变换为BEV空间特征。
基于内容感知的膨胀和多模态特征融合
由于本文是多模态的感知算法,需要同时利用图像和超声波的光谱特征,这就会遇到多模态算法中无法避开的一个问题:由于不同传感器采集到的数据代表了不同形式的环境表示。鱼眼相机通过图像像素的方式来捕获当前环境中丰富的语义信息,但是会丢失掉目标的深度以及几何结构信息。超声波传感器通过接收发射信号打到物体后发射回来的回波信号来感知周围的环境。这种不同传感器采集到的数据模态上的差异增加了特征融合过程中的难度。除此之外,在前文也有提到,相机传感器通常会暴露在自动驾驶车辆的外部,这就会造成周围环境会使得传感器发生潜在的错位风险,导致不同传感器采集到的同一个目标可能会在BEV空间中落到不同的网格单元中,从而直接造成融合后的多模态特征出现歧义性的问题,影响最终的感知算法预测结果。
所以,综合考虑到上面提到的多模态特征表示存在的差异,以及还可能出现的传感器错位之间的风险,我们提出了基于内容感知的膨胀和多模态特征融合模块。该模块中的膨胀卷积可以根据卷积核所在特征图的不同位置自适应的调整膨胀率的大小,相应的自适应膨胀卷积的计算公式如下:
以上就是我们提出的基于内容的膨胀卷积,通过该卷积用于调整超声波BEV空间特征。随后,将膨胀后的BEV空间特征与鱼眼相机完成空间转换后的BEV空间特征合并起来,从而实现多模态特征信息的融合,从而实现更准确的障碍物感知任务。
语义占用预测头
在获得了多模态的BEV空间特征后,我们制定了一个双阶段的多尺度语义占用网格预测解码器来得到最终的网格地图占用预测。解码器的具体网络结构如图九所示,该结构有两个顺序级联的残差块组成。第一个残差块用于避免在相同的分辨率内损害目标的空间特征。第二个残差块通过利用上下文特征来学习不同障碍物类型的先验几何形状信息。将多模态的BEV空间特征在多组级联的卷积网络中作用后得到最终的分割结果。
实验结果和评价指标
评价指标
由于我们设计的障碍物感知算法需要涉及到二值分割来区分前景和背景区域的目标,所以我们采用了一下的相关指标来评价我们设计模型的好坏。
- 召回率指标:该指标可以很好的反映出系统对于障碍物的感知能力,同时该指标也广泛应用于2D、3D检测任务当中,这里就不过多介绍了。
- 欧几里得距离指标:该指标可以帮助我们评估预测障碍和地面真实障碍在空间位置方面的一致性程度。预测障碍物与实际障碍物之间的距离是关键信息,以确保系统准确地感知障碍物的位置。
- 绝对距离误差:该指标可以准确的反映出障碍物感知网络模型将障碍物相对于自车作为参考的接近程度。通过了解这种相对距离有助于对象回避、刹车或者在转向的过程中做出实施决策。
- 归一化距离指标:该指标可以更好的评价模型预测出来的障碍物与自车之间的距离性能好坏。
实验结果(定量指标)
首先,我们比较了提出的多模态障碍物感知算法模型在室内和室外两种环境空间以及不同传感器下的检测性能,具体定量的数据指标如下图所示:
所提出的算法模型在不同场景下的指标汇总
通过实验结果可以看出,在室内场景来看,由于采用了超声波传感器采集到的数据,障碍物感知算法模型在距离指标上有着非常出色的预测优势,同时在召回率方面也要大幅度的超过单模态(纯相机)的算法算法版本。对于室外场景而言,所提出的算法模型得益于多模态数据互补的优势,各个指标均都要大幅度领先于单模态视觉的感知算法版本。
接下来是针对当前的两种不同版本的算法模型在各个不同障碍物类别上的感知结果性能汇总,不同类别具体定量的实验数据汇总在下表当中
通过上表可以看出,对于绝大多数的障碍物目标,当前提出的多模态算法模型在召回率、精度、交并比、距离、归一化距离、欧氏距离等各个指标上均要明显的高于单模态纯图像的算法版本。由此说明,通过多种模态的数据进行信息互补,不仅提高算法模型对于障碍物的检测识别性能,同时还可以更加精确的定位障碍物的的具体位置。
为了进一步的展示我们提出的多模态感知算法模型在距离上的感知优势,我们对不同距离段的感知性能指标进行了统计,具体统计结果如下表所示。
我们将模型5.8米的感知范围分成了四个不同的距离段,通过实验数据可以看出,随着距离的变远,仅仅使用单模态纯视觉的算法版本其召回率,距离性能均是不断下降的,因为随着距离的变远,图像中的目标变得越来越小,模型对于目标的特征提取变得更加困难。但是随着超声波传感器采集的信息加入,可以明显的看出,随着距离的变远,模型的精度并没有明显的降低,实现了不同传感器信息的互补优势。
实验结果(定性指标)
下面是我们多模态算法模型感知结果的可视化效果,如下图所示。
提出的算法模型感知结果的可视化效果
结论
本文首次提出了利用鱼眼相机传感器以及超声波传感器进行BEV空间的障碍物感知算法,通过定量指标(召回率、精度、欧氏距离以及归一化距离等指标)可以证明我们提出算法的优越性,同时上文可视化的感知结果也可以说明我们算法出色的感知性能。