【论文笔记】Vehicle-to-Everything Cooperative Perception for Autonomous Driving

原文链接：https://ieeexplore.ieee.org/abstract/document/11144483/

I. 引言

协同感知（CP）通过让车辆与周围车辆（V2V）、基础设施（V2I）、人（V2P）与网络（V2N）交换感知数据（统称V2X通信），可将视野扩展到视线之外，并提升决策能力。

II. 协同感知的数学表达

令 X i t X_i^t Xit表示 t t t时刻智能体 i i i的原始传感器数据。智能体会使用编码器 F e n c o d e r ( ⋅ ) \mathcal F_{encoder}(\cdot) Fencoder(⋅)提取特征 F i t F_i^t Fit，随后解码器 F d e c o d e r ( ⋅ ) \mathcal F_{decoder}(\cdot) Fdecoder(⋅)生成感知结果 Y i t Y_i^t Yit。不同CP策略的区别在于数据共享的阶段和相应的融合方法。

A. 早期协同

早期协同的智能体之间会交换原始传感器数据。每个智能体会融合所有 N N N个智能体的数据：
X i , C P t = F E a r l y F u s i o n ( { X k t } k = 1 N ) X_{i,CP}^t=\mathcal F_{EarlyFusion}(\{X_k^t\}_{k=1}^N) Xi,CPt=FEarlyFusion({Xkt}k=1N)

融合的数据会被编码和解码，得到最终的CP结果。这一方案提供最丰富的信息，但需要的带宽和同步要求都很高，在通信受限的环境下不适用。

B. 中期协同

中期协同共享从原始数据中提取的特征。融合在特征层级进行：
F i , C P t = F I n t e r F u s i o n ( { F k t } k = 1 N ) F_{i,CP}^t=\mathcal F_{InterFusion}(\{F_k^t\}_{k=1}^N) Fi,CPt=FInterFusion({Fkt}k=1N)

融合的特征会被解码得到最终的CP结果。该策略平衡了通信效率与信息丰富度，但其性能取决于智能体特征的质量与特征之间的一致性。

C. 晚期协同

晚期协同的智能体会独立完成感知任务，仅共享最终的感知结果。结果之间的融合如下：
Y i , C P t = F L a t e F u s i o n ( { Y k t } k = 1 N ) Y_{i,CP}^t=\mathcal F_{LateFusion}(\{Y_k^t\}_{k=1}^N) Yi,CPt=FLateFusion({Ykt}k=1N)

该方法最小化带宽要求，但缺乏灵活性与细节，使其不适合动态或遮挡的环境。

IV. 协同感知的现代通用框架

A. 概述

如图所示，协同的过程可分为两个主要阶段：单智能体感知和多智能体协同。

单智能体感知阶段，每个智能体获取其6自由度位姿，同时感知其周边环境。通信消息通过打包协同感知信息（CAM）和集体感知信息（CPM）。CAM传达智能体的状态，如位置和运动，而CPM提供额外感知细节（可包括原始数据、中间特征和/或检测结果）。

多智能体协同阶段包括4个组件：传输准备、V2X通信、协同信息对齐和感知信息融合。为保证高效通信与精度，第一步需要仔细选择合适的协同智能体和相关的感知信息。随后通过V2X通信共享CAM与细化的CPM。之后，自车通过坐标或姿态变换技术，将获得的感知信息与局部数据对齐。最后，聚合的数据通过融合算法合并，并解码为感知结果。互联自动驾驶车辆（CAV）可将感知数据发送给路边基础设施进行边缘计算，随后根据需求分发到CAV上。

B. 传输准备

现实中存在通信带宽限制，过高的网络负载会导致数据延迟与丢失的风险增加，影响CP系统的性能。因此，需要平衡性能与通信效率。相关方案可分为四类。

1) 协同智能体选择

不合适的道路参与者可能引入干扰，影响整体性能。

注意力机制可通过关注相关数据来提高模型效率，可用于选择合适的智能体。

Who2com提出多阶段握手通信机制，使用注意力选择合作者。通过计算智能体之间的匹配分数，选择最相关的智能体以优化带宽使用。

基于此，When2com使用注意力决定最优通信时间。通信仅在自车认为自己的信息不充分时进行，从而节省网络资源。

有方法提出动态通信机制，基于学到的注意力权重决定交互的基础设施，从而平衡检测精度和使用的通信资源。

为最小化能量消耗，数据共享调度问题可被建模为多摇臂老虎机（MAB）问题的变体，需要考虑感知性能，时变的无线通道和功耗。

基于在线学习的算法------自适应易变上置信界（AVUCB） ------调度最优车辆，在满足通信带宽限制的情况下强化视野。但其没有考虑协同车辆的高移动性。

移动性感知的传感器调度（MASS）将去中心化的CP调度建模为不安定多摇臂老虎机（RMAB）问题，奖励连续进化，需要车辆不断地学习周围环境，并选择经验上最大化奖励的行为。该方法能增强整体感知，而不引入额外的元信息交换代价。

选择协同智能体也可以比作多智能体寻路（MAPF）问题，其中需要为多个智能体规划路线。

有方法提出选择性通信算法，基于估计的信息增益决定协同车辆的子集。信息增益通过比较自车检测到的目标位置与来自其它车辆的位置信息来计算。选择有最高信息增益的车辆，并以此决定通信范围。

优先级感知的协同感知（PACP）使用基于BEV的匹配策略，计算周围CAV与自车的空间相关性来决定其相对重要性。

上述方法均关注空间相关性，忽视了协同者选择中重要的时间依赖性。

IoSI-CP提出利用跨时空的语义信息进行协同者选择。利用GNN捕捉自车与周围智能体的关联，权重小于0的智能体被忽略。但一维权重可能无法捕捉高维表达。

InterCoop通过分析道路网络与轨迹的时间动态，计算每辆车的交互分数，从而识别最相关的车辆。

2) 感知信息选择

一些方法关注选择或生成待传输的CPM，可分为基于规则的、基于距离的和基于学习的方法。

a) 基于规则的方法

基于规则的方法需要设计规则来规定检测到的物体的哪些信息被包含到CPM中。

有方法提出，仅在物体转弯或加速时，才会传输其模式的信息。

有方法将检测车辆的视觉信息作为通信标识，并利用其整合CPM与局部感知数据。对于交换了CAM的被检测车辆，在未来不会交换CPM。

还有方法改进算法，通过滤除被检测物体相关的冗余信息（即最近被其它附近车辆传输过的信息），来细化规则。

基于规则的方法实施起来相对直接，但其主要依赖被检测物体位置或速度的变化。

b) 基于距离的方法

基于距离的方法基于相对自车传感器的距离度量来排列数据优先级。

增强信息协同感知（AICP）系统使用基于马氏距离的适合度排序算法，选择关键信息，以极低延迟过滤掉不相关的数据。

动态特征共享（DFS）使用基于曼哈顿距离的随机K优先级算法来确定相关特征，使用早期、中期与晚期融合来优化协同感知系统动态节点的参与度。

基于距离的方法可能只能部分满足自车的感知信息要求。

c) 基于学习的方法

基于学习的方法使用完整感知数据智能地选择共享的信息。

BM2CP使用模态指导的协同，通过生成偏好阈值掩膜来过滤BEV特征，选择性地共享最关键的多模态特征，以提高通信效率。

深度强化学习（DRL）通过智能体与环境的交互来学习策略，以最大化累积奖励。

基于DRL的协同感知（DRLCP）方案中，每个CAV基于自身传感器的上下文，智能地决定传输的信息。

另一类基于学习的方法，选择性区域机制，关注选择合适通信区域中的CPM。

有方法使用边界框匹配模块，选择边界框提案内的关键点特征进行传输。

UMC包含可训练的逐区域通信选择模块Entropy-CS，利用熵来区分区域信息量并基于分辨率等级选择适合传输的区域。

GevBEV使用证据BEV图来确定自车需要额外信息的区域，使用基于狄利克雷证据的证据深度学习量化基于点的分类不确定性。

前景区域比背景区域有更丰富的内容。

IFTR使用信息选择与特征图重建模块来传输前景区域中最相关的特征。

CodeFilling设计了信息填充驱动的消息选择，基于来自其它智能体的信息分数图，求解局部优化问题，从而确定自车的感知需要，生成选择矩阵。

为了处理空间选择方法可能丢失关键物体信息的问题：

V2X-PC提出点簇打包模块，采样重要点来控制带宽。该点簇表达能够在消息打包时保留物体特征，显式地传递物体结构信息。

注意力机制可使智能体智能地选择来自其它智能体的最相关感知信息。

柱体注意力编码器（PAE）提取注意力值作为重要性指示，选择最重要的特征进行传输。

ActFormer使用主动选择网络，为每个查询分配感兴趣分数，指示特征对自车感知的相关性和重要性。该方法基于空间知识选择传感器数据，而无需传感器测量本身，从而提高了效率。

3) 智能体与信息选择

Where2comm使用空间置信度感知的协同感知框架，每个智能体会生成空间置信度图，来确定特征图中对感知最关键的区域。这些关键特征被打包为消息，通过稀疏连通通信图共享。通信图是通过选择性地决定通信伙伴来建立的，从而最小化不必要的带宽使用。此外，仅传输非零特征及其索引。该方法通过传输稀疏但重要的特征，同时优化了感知精度与通信效率。

4) 感知信息压缩

压缩技术可在减小数据大小的同时，有效保留最重要的特征。

V2VNet使用变分图像压缩算法来压缩特征图。

有方法使用量化来压缩特征图并传输，但没有考虑整合时空信息。

CPSC使用特征级压缩，在时空域关注重要区域，数据传输策略会适应网络条件。

在协同感知中，使用CNN进行编码也被广泛应用于特征压缩。

FS-COD中，CNN特征提取器的最后一层应用了滤波器，来控制数据大小。

DiscoNet使用 1 × 1 1\times 1 1×1的卷积自编码器，沿通道维度压缩特征图；V2X-ViT则使用多个 1 × 1 1\times 1 1×1卷积滤波器。

COOPER-NAUT使用基于Point Transformer的点编码器，把点云压缩为紧凑表达。

CenterCoop将完整的BEV上下文线索编码为紧凑的中心表达，将其作为查询传输，极大降低了通信代价。

但基于CNN的特征图的维度通常超过了V2X技术可传输的范围。

有方法使用SENet通道注意力模块，基于通道注意力权重和语义信息的独一性确定最优的通道。

EMIFF引入特征压缩模块，包括通道和空间压缩块。

上述方法没有解决（智能体配置差异带来的）传输信息之间的异质性问题。

What2comm引入基于特征解耦的通信机制，通过减小背景噪声来分离稀疏但重要的专用特征，并沿通道维度压缩通用特征。

上述压缩方法对所有CAV数据应用统一的压缩率，没有考虑数据融合时CAV对感知的贡献差异。

SmartCooper提出在通信约束下优化车辆连接性。使用可学习编码器，基于通道状态信息动态调整压缩率，并引入判断机制过滤有害的图像数据。

C. V2X通信

CP依赖V2X通信技术来促进实时信息交换。专用短程通信（DSRC）和蜂窝式V2X（C-V2X）是支持低延迟和可扩展通信的两个关键技术。

1) DSRC

DSRC是专门针对车辆通信设计的，能在智能体之间进行快速双向短距离通信，而无需中心网络。

DSRC正在被C-V2X取代，因为后者有更强的扩展性、网络支持能力和5G系统集成。

2) C-V2X

C-V2X有两种工作模式：直接通信与网络通信。

3) V2X对CP的影响

V2X对CP的关键影响在于带宽的谱约束，以及延迟和同步问题。

a) 带宽与谱约束

CP需要实时且高质量的数据，通常包括来自激光雷达和雷达的高分辨率输入，给通信系统的数据传输速率带来了高要求。实现高速数据传输需要高带宽，稳定的传输信道和精确的信道检测与估计。

b) 延迟与同步

CP需要低延迟且精确的计时，以保证车辆间同步的数据融合。网络拥堵和物理障碍可能引起延迟。DSRC使用更宽松的计时和异步通信，而C-V2X遵循严格的时间标准。

D. 协同信息对齐

协同信息对齐保证来自不同智能体的共享数据表达在相同的坐标系下。

1) 数据对齐

每个协同智能体都在各自的局部坐标系下运行，不管是原始数据、中间特征还是感知结果都表达在其局部坐标系下。为了对齐协同数据，传输的消息必须包括传感器的位置和朝向。自车获取这些信息后，会计算相对变换矩阵 T T T，来将接收到的数据转换到自车坐标系下。

计算 T T T需要根据智能体的3D位置坐标和朝向角，计算智能体局部坐标系到全局坐标系的（齐次）变换矩阵。已知智能体A和B对应的齐次变换矩阵 T A , T B T_A,T_B TA,TB，有
T = T B − 1 ⋅ T A T=T_B^{-1}\cdot T_A T=TB−1⋅TA

给定B局部坐标系下的数据点 p B p_B pB（齐次坐标），可通过
p = T ⋅ p B p=T\cdot p_B p=T⋅pB

转化到自车坐标系下，从而与自车数据对齐到同一坐标系。

2) 姿态误差对齐

精确的相对位姿依赖GPS或IMU，易受到噪声影响和精度限制，可能导致错位，从而降低检测精度。

常用的解决方案包括统计学习模型。

有方法通过RANSAC算法匹配两个CAV感知结果中的关键点，来修正相对位置。

基于V2VNet，有方法引入一致性模块，将绝对位姿的全局相干性建模为马尔科夫随机场，结合贝叶斯重加权，增强相对姿态估计。但该方法的训练阶段需要真实位姿。

CoAlign提出智能体-物体姿态图优化方法，提高位姿一致性。

RoCo将姿态修正问题建模为物体匹配任务，不同智能体检测到的物体被关联，并迭代调整位姿以最小化对齐误差。

点云配准方法通常关注细化迭代最近点（ICP）算法。基于ICP的匹配算法对齐来自不同智能体检测结果的两个点集，其中相对变换被视为最优传输问题，最小化点之间的传输代价。

V2X-PC对齐了来自时间和空间维度的点簇，并提出适应不同噪声层次的、无需微调的无参数解。

CoBEVGlue提出空间对齐模块BEVGlue，通过匹配共同可见的物体，估计智能体之间的相对姿态，而无需外部定位系统。该方法只需要传输边界框与跟踪标识，减小了通信带宽的同时保证高质量匹配。

高清地图可提供精确的自车位置，从而协助实现精确的空间对齐。

基于地图的CP框架"map container"通过地图匹配算法，将多智能体的感知信息自动映射到地图坐标系，建立时空变换基准。但该方法需要单目摄像机与GNSS/IMU设备。

FreeAlign通过智能体感知的几何结构不变性估计相对姿态，避免对全局定位系统的依赖。

多尺度特征交互通过将特征编码为不同尺度并聚合为最终的协同表达，可减少姿态误差带来的特征图错位。

时空感知的CP框架SCOPE生成鲁棒的表达，同时通过置信度感知的多尺度特征交互考虑定位误差。

V2X-ViT提出多尺度窗口注意力模块，利用不同分辨率的窗口金字塔捕捉多尺度长距离空间交互，提高检测结果对位置误差的鲁棒性。

EMIFF设计了多尺度交叉注意力与摄像机感知的通道掩蔽模块，通过选择性聚合特征、应用空间偏移量以及基于相机参数重加权特征，来应对位置误差的负面影响。

智能体间的物体关联通过匹配来自不同智能体的关键点或物体，来决定最优相对姿态变换。

基于上下文的匹配（CBM）算法基于边界框朝向生成物体簇，通过迭代地逐对比较，最大化全局共识来建立相关性。

有方法使用基于库恩-芒克斯算法的数据关联和空间误差校准来处理空间差异，但对应关系的识别因为视觉折叠、不可见物体与噪声，存在挑战。

有方法将对应关系的识别建模为图匹配问题，使用掩蔽GNN处理不可见物体，显式地考虑遮挡和有限的视野。

E. 协同信息融合

1) 传统融合

规约操作如求和、最大、均值池化，常被用于协同信息融合。

Cooper使用原始点云数据增强3D目标检测。

F-Cooper使用最大池化进行体素特征级的融合，以平衡带宽和精度。

PillarGrid使用逐网格最大池化。

CoCa3D使用逐点最大值融合BEV特征，通过协同深度估计增强基于相机的检测。

精心设计的融合模块也可用于融合BEV特征。

SiCP提出双感知网络（DP-Net），通过提取关键的梯度信息，为激光雷达点分配权重，仅需要少量参数。

CoBEVFusion使用融合模块整合来自两个CAV相机和激光雷达的异质特征。

对于晚期融合方法，目标检测任务使用非最大抑制（NMS），基于置信度分数，以非参数化方式过滤重叠的边界框。

V2X-BGN基于BEV下的2D IoU，使用NMS聚合冗余的检测结果。

有方法提出基于规则的协同感知消息（CPM）融合方法，将局部检测的物体与通过V2X通信确定的物体进行关联。

非参数化融合方法计算代价小，但不能捕捉数据相关性。参数化方法可提供更准确可靠的融合。

协方差交集（CI）算法可以在无需互相关性先验的情况下，一致地融合估计结果。

有方法提出基于CI的融合策略，融合局部传感器数据与来自其它智能体的目标信息。

基于BEV的融合或物体级别的融合通常会导致性能下降。

V2X-PC中的点簇聚合（PCA）模块保留了点簇的低级结构细节，从而提高边界框的精度。PCA基于簇中心的距离，匹配来自不同智能体的点簇，并将表达统一物体的点簇合并为新簇。其计算复杂度仅与点簇数量相关，且无需卷积或填充操作，适合长距离协同感知。

2) 基于图的融合

多智能体协同可表达为协同图，其中节点为智能体状态，边为逐对协同。其核心为GNN，提取相关数据并利用局部属性与周围信息生成节点嵌入。节点状态通过节点间通信与聚合来更新。

V2VNet中的每个智能体使用全连接GNN作为聚合模块，从不同视角融合特征。使用掩膜感知的累积操作，考虑了视野重叠，在每个节点聚合消息。但其使用标量值边权重来指示消息的重要性，不能有效建模智能体之间的协同强度。

DiscoNet使用边编码器，建立不同智能体特征图之间的关系，表达为矩阵值边权重。特征图拼接并通过卷积下采样后，进行softmax归一化。随后，通过对齐学生模型与基于早期融合的教师模型的中间特征，并进行知识蒸馏，提高检测性能。

V2X-ViT中的异质多智能体自注意力（HMSA）模块通过在有向图中将智能体类型与节点和边关联，计算节点之间的重要性权重，来融合协同特征。

HYDRO-3D扩展V2X-ViT，建立混合了目标检测和跟踪的模型。其中，来自V2X-ViT的检测特征与使用时空金字塔3D网络提取的历史跟踪数据结合，提高了检测结果的鲁棒性和精度。

传统的特征融合方法如拼接与求和，仅能进行线性融合，不能考虑特征图之间的重要性差异。

有方法提出图注意力特征融合网络，特征图中的重要区域通过空间和通道注意力选择性突出。

3) 基于注意力的融合

注意力机制也被广泛用于融合权重的确定。例如Point Transformer能从3D点云中学习紧凑表达，有着捕捉非局部交互与生成排列不变表达的强大能力，适合聚合激光雷达点云。

COOPERNAUT使用基于Point Transformer的表达聚合器，包含用于空间聚合的体素最大池化以及用于多智能体感知数据融合的Point Transformer块。

V2VFormer与V2VFormer++使用基于通道和空间信息的注意力融合CAV特征。

部分方法与知识蒸馏技术结合，使用注意力模块从不同视角的多个优秀的教师模型迁移有用的知识，并聚合到自车的学生模型中。

考虑到激光雷达传感器的高成本：

有方法提出稀疏视觉Transformer块CoBEVT，使用多相机特征进行协同BEV分割。CoBEVT引入3D视觉Transformer，使用融合轴向注意力模块融合多智能体的BEV特征。

QUEST将DETR提出的可变查询概念扩展到V2I的CP设置下。

上述方法仅考虑单帧预测，忽视了历史上下文与时间语义线索，限制了其在稀疏点云下检测快速移动物体的能力。

SCOPE引入上下文感知的信息聚合模型，使用金字塔LSTM网络将时空数据整合到自车，生成细化的上下文感知特征。该特征与协同特征会通过互补贡献与空间注意力图（由最大池化得到）融合，可能不能完全捕捉特征之间的关系。

IoSP-CP提出历史先验混合注意力（HPHA）融合算法，由多尺度Transformer与短期注意力模块组成。前者在不同空间尺度下提取注意力权重，而后者用于捕捉时间依赖性并识别由判别力的特征，以抑制背景噪声。

4) 混合融合

不同的协同方案有其优劣。基于混合融合的方法通过整合多种融合方法，实现有效互补，具有前景。

离自车传感器近的物体通常有高密度点云，容易被单一传感器检测到，而远处的点更稀疏。

有方法使用混合融合方法，在低密度区域传输原始数据（早期融合），在近处区域传输物体级别的信息（晚期融合）。

Hybrid CP提出基于区域的混合协同感知策略，基于车辆的检测范围是否重叠，将协同分为两类。重叠区域使用特征级中间协同，而非重叠区域使用晚期协同。

ML-Cooper根据当前信道状况，动态调整原始级、特征级和物体级数据的共享，以优化V2V带宽。

V. 协同感知的问题与相关方法

尽管大多数CP的研究关注了上述关键方面，但对下列微小但重要的挑战关注不够。

A. 智能体异质性

之前介绍的CP系统通常假设智能体是统一的。但现实中，智能体配置、传感器配备等有不同的偏好。需要解决智能体异质性（包括模型和数据的差异）带来的挑战。

1) 模型异质性

共享相同参数的感知模型可能会引起隐私或机密方面的担忧；即便来自同一制造商，车型与模型更新频率的差异也会导致感知模型的不同。使用不同的模型会导致感知数据之间存在域间隙，从而影响CP的有效性。

物体级别的协同感知框架仅需共享边界框、置信度分数等信息，但不同模型产生的置信度分数可能无法对齐。

有方法提出模型无关的协同感知框架，其中双边界缩放校准器用于消除置信度分数的偏置，并使用促进-抑制聚合算法，基于校准后的分数和空间一致性选择高置信度的边界框。

不同的运动预测模型也会导致检测结果差异，尤其是部分智能体缺少加速度或角速度相关的信息时。

为了处理不同状态空间的异质感知融合，有方法提出基于CI的轨迹融合，使用状态增广方法增广低维轨迹。

晚期协同能保留模型隐私，但会引入噪声。中期融合更加灵活且常用，但不同的特征提取器会导致域间隙。

多智能体感知域自适应（MPDA）提出特征缩放器和稀疏跨域Transformer，来对齐并生成域不变的特征。

卷积适应器（ConAda）通过将特征图投影到低维并变换回来，减小域偏移。此外，该方法通过冻结多数参数并整合轻量级模块，使单智能体预训练模型适应协同设置。

2) 数据异质性

现实中的车辆通常会使用不同传感器模态：激光雷达提供了精确的几何，而摄像机提供了丰富的语义。使用不同的传感器能实现互补，但不同传感器之间的信息交换，以及传感器噪声的差异为异质协同系统的开发带来了挑战。

HM-ViT提出H3GAT模块，通过Transformer块和异模态MLP提取智能体内和智能体间的线索，来更新节点状态。该模型允许相机和激光雷达特征使用不同参数处理，有强灵活性和鲁棒性。

此外，同一模态的传感器也有品牌、分辨率、配置之间的差异，存在域差异。

DI-V2X使用师生蒸馏结构，包括三个关键模块：域混合实例增广模块（对齐师生模型的数据分布），域适应融合模块（组合车辆和基础设施的特征），以及渐进式域不变蒸馏模块（在融合前后对齐师生模型的特征），实现跨域的通用表达。

除了传感器特性，不同的环境条件也会导致CAV之间的域间隙和数据异质。

有方法提出域泛化框架（减小模型对低频光谱变化的敏感性）、域对齐机制（统一图像像素分布）和元一致训练方案（模拟域偏移并使用一致性损失优化模型）。该方法有在推断前消除域差异的潜力。

数据特征的不同也会影响CP。

VINet提出双流融合算法，通过边缘服务器上的特征映射与最大输出过程，整合CAV与基础设施的异质特征。

V2X-M2C提出反映异质性的卷积模块，使用并行卷积管理异质智能体，考虑其特征分布并保证结构轻量高效。

但时间异步与传感器标定误差会导致不准确的相对位置，导致真值与预测边界框的错位。

VIMI通过多尺度交叉注意力和相机感知的通道掩蔽模块，减小标定噪声；多尺度特征融合与相机参数先验的引入，可以修正时间异步带来的错位。

3) 模型和数据异质性

现实中，具有不同模态和模型的新型异质智能体可能会不断涌现。

HEAL为初始的同质智能体建立统一的特征空间，后续新的异质智能体会通过反向对齐机制，与该空间对齐，从而允许新型智能体在保留模型与数据隐私的情况下，最小化训练代价。但该模型依赖BEV特征，且需要高精度的智能体定位。

B. 有损通信

现实的V2X通信中，如干扰、篡改、信号波动、多普勒和多径效应会导致不精确的信息交换。

受到图像去噪网络的启发，有损通信感知的修复网络（LCRN）使用带有跳跃连接的编码器-解码器结构，生成逐张量的滤波器，以修复有损通信带来的受损特征。有损特征会通过滤波器，并通过V2V注意力模块融合。该方法仅能减小特征损失带来的影响，而不能直接处理特征损失。

V2X-INCOP利用历史信息恢复丢失的数据，通过提取多尺度时空特征的自适应通信模型估计丢失的信息，以应对通信中断。

有方法提出历史帧预测（HFP）模块，输入少量历史帧，使用时间关联预测当前帧，处理信息损失与延迟。

上述方法忽视了现实的信道模型，不能捕捉真实通信环境的复杂性。

有方法提出带有空空间路径损失的莱斯衰落与结合了多径衰减的WINNER II模型，模拟现实通信信道。为了减小信道失真对中间融合的影响，引入基于待有Softmax层的CNN的自监督自适应加权模型，该模型利用对比自监督训练，能实现跨数据域、检测主干、噪声等级与路径损耗因子的泛化。

获取历史信息可以减小通信频率，作为通信失效的补偿机制，从而增强系统可靠性。

TempCoBEV引入重要性指导的注意力结构，从历史上下文中挑选关键区域，补偿通信失效。该时间模块可以整合到基于相机的CP模型，而无需重训整个模型。

C. 通信延迟

网络拥堵导致的延迟也会影响模型精度与融合对齐。基本的措施是通过补偿相对参考智能体的时间差异，来调整时间戳。

CooperFuse提出多智能体时间同步模块，引入时间校准通信、时间补偿和校准补全来最小化网络传输延迟。

时间序列预测能基于历史帧估计当前时间下发送者的感知数据，有效处理延迟。

FFNet通过提取特征流的一阶微分，预测未来特征。

SyncNet使用双分支金字塔LSTM网络，来推断实时特征。

HFP模块通过一系列多维卷积混合操作生成当前帧的预测。

上述方法没有有效处理不规则的时间延迟。

CoBEVFlow将每个协同消息视作不规则样本，使用历史帧预测BEV流图，进行异步特征对齐。

V2X-PC绕过了对过去数据的依赖，直接使用点簇的低级坐标信息来预测当前帧位置。

重新编码接收到的延迟特征可缓解通信延迟。

V2X-ViT通过延迟感知的位置编码模块处理延迟，与延迟时间和信道信息相关的正弦函数用于初始化可学习嵌入。

V2VNet使用CNN处理延迟，利用接收到的中间特征、6自由度位姿和延迟时间来产生补偿时间延迟的表达。

上述方法假设延迟时间是已知的。但延迟通常是利用不同智能体时钟的时间戳计算得到的，可能不准确。

FreeAlign引入基于多锚的子图搜索算法，识别不同智能体显著对象图之间公共的子图，从而可估计时钟差异，确定消息之间准确的时间差。该方法可在无需外部时钟同步信号的情况下实现精确的时间对齐。

D. 安全与隐私

连接多个智能体的V2X通信网络易受攻击，且数据共享会引起隐私泄露，需要鲁棒的安全协议。

1) 数据安全

恶意智能体可能篡改或伪造数据，自车无法确认接收数据的真实性。微小扰动可能显著影响感知输出。虽然对抗训练可以解决这些威胁，但增加了训练开销，且无法应对新型攻击。

ROBOSAC使自车智能地选择可信的协同者。通过检测敌方消息的差异，并与可信的协同者对齐，该方法可泛化到从未见过的攻击，平衡了性能和计算代价。

在处理前评估接收信息的质量并检测错误数据，对保证数据安全很关键。

使用概率建模技术，基于数据一致性估计智能体的可信度。但该方法依赖至少3个来源才能有效识别攻击者。

针对欺骗攻击，FDII利用周围智能体的激光雷达数据，检测扫描中被篡改的点。通过比较被修改和未被修改的扫描之间的差异，使用决策树分类攻击方式。

针对伪造攻击，协同异常检测（CAD）模型通过共享并混合占用图，来检测恶意伪造。占用图由精细的多边形表达，与基于网格的表达相比有更高的灵活性和精度。运动估计用于跨帧跟踪物体，并将运动数据附加到占用图中。同步的占用图之间会进行一致性检测，融合的占用图会与单独的感知结果比较，冲突的区域即存在潜在的异常。该方案假设至少有一个良性智能体监测到被攻击区域。

恶意智能体检测（MADE）使用两个统计学度量识别恶意智能体：匹配损失（量化自车与受检智能体之间的边界框提案差异）和协作重建损失（衡量协作智能体之间的特征图一致性）。该方案假设自车是良性的。

2) 数据隐私

现实中，厂商不愿共享专有数据，会导致感知任务的信息不完整、不充分。

联邦学习（FL）辅助的CAV作为新兴范式，减小通信代价和隐私担忧，相比传统的集中式学习有更多的应用场景。FL使协作智能体在不需数据聚合和直接数据交换的情况下训练模型，但使用多样场景下的多模态数据集进行多阶段训练，如何确定网络资源和传感器放置是复杂的挑战。

不同客户端间摄像头位置的差异会使联邦学习的结果偏离与本地数据相关的最优值。

联邦Transformer学习框架FedBEVT通过私有化相机位置嵌入，减轻数据异质的影响。

有方法提出联邦动态加权聚合（FedDWA）算法，与动态调整的损失函数一起处理数据异质性。

上述方法没有考虑网络异质性。此外，客户端之间的连接质量差异导致的通信延迟会影响FL的效率。

有方法提出上下文客户端选择流程，通过数字孪生模拟技术，在预测性传输场景下建模网络条件并估计FL通信延迟。该方法同时处理了数据和网络的异质性，增强了通信效率。

FL的另一挑战在于数据量和通信延迟差异带来的不公平性。

为处理数据分布不平衡和信道条件的多样性，有方法基于CAV的数据量和信道条件，针对其定制局部训练策略。该方法促进了能量和时间消耗的公平性，并加速了模型收敛。

E. 感知不确定性

超出范围的物体、传感器误差和恶劣天气影响会给CAV带来感知的不确定性。

捕捉不确定性对增强CAV安全性很关键。

感知误差模型（PEM）将单智能体感知误差与真值合并，从而直接在仿真流程中建模不确定性，而无需合成的传感器数据。这一方法被扩展为协同感知误差模型（CoPEM），考虑了V2X通信场景中的遮挡相关感知误差。但其需要每个智能体的统计模型，且没有考虑车辆的高机动性。

基于共识的分布式多模型CP（DMMCP）从多个运动模型中整合了先验知识，使用混合共识策略，利用容积卡尔曼滤波器（CKF）来提高数据融合精度并管理模型不确定性。但CKF的初始化有困难。

CMP将检测到的3D边界框与轨迹片段关联。通过聚合CP和运动预测数据，降低了来自检测和跟踪的不确定性，提高了运动预测的性能。

不确定性量化能在系统的部分方面不确定时估计结果的可能性。目标检测任务中：

Double-M使用时间特征处理协同目标检测的不确定性。运动块自举算法用于建模每个边界框角点的多变量高斯分布，考虑了时序数据的自相关性。该方法中的低精度物体被分配高不确定性。缺点是其假设每个边界框角点遵循独立的多变量高斯分布。

GevBEV利用基于点的高斯分布建立概率BEV图，利用证据深度学习估计概率和不确定性，高斯密度被解释为服从狄利克雷分布的证据。

目标跟踪任务中：

MOT-CUP框架通过在KF和物体关联过程中整合检测不确定性，来量化跟踪不确定性。使用直接建模技术和共形预测方法建模不确定性，应用基于标准差的KF（SDKF，利用不确定性增强位置预测的精度）和负对数似然（NLL，通过考虑低质量检测提高跟踪精度）关联细化过程。

DMSTrack使用可微多传感器KF，估计每个检测的不确定性；使用学到的协方差模型优化跟踪。但多车辆跟踪信息没有被考虑，也没有解决临时的跟踪失效。

有方法提出互补数据关了模块，利用CAV共享的信息识别和恢复丢失的物体。

F. 任务差异

现有的许多CP模型是任务特定的，更换任务需要重新训练整个模型，影响模型的泛化能力。为了开发下游任务无关的CP框架，近期的工作关注名为多智能体场景补全的新任务，也被称为协同重建。该任务中，每个智能体学习如何高效共享信息，重建被所有智能体观测的完整场景，从而学到任务无关的特征表达。

时空自编码器（STAR）被用于自监督地利用共享特征重建整个场景。下采样的特征在智能体之间传输，共同覆盖整个空间区域，以平衡性能和通信代价。重建的场景可用于各种下游任务，而无需额外训练。

这一任务无关的方法作为CP的新方向，解耦了协同训练与下游任务学习。但因为不完整的场景重建，该方法与特定任务的方法相比，仍然存在性能差异。

CORE将所有智能体原始传感器数据聚合并提取BEV表达，在其指导下重建完整场景。该方法的协同重建包括三个模块：压缩模块（计算每个BEV的压缩特征表达，包括通道压缩和空间下采样）、协同模块（基于注意力，促进信息聚合）和重建模块（使用解码器，从融合特征重新生成完整的场景观测）。

G. 仿真到现实

由于真实多智能体数据的稀缺和人工标注的资源密集性，许多CP模型依赖仿真的传感器数据进行训练和测试。但仿真与真实之间存在域间隙，需要域自适应技术来将训练在有标注源域的模型迁移到无标注目标域。

除了定位误差和通信延迟，真实驾驶场景中的特征分布明显比仿真数据更加复杂。

S2R-ViT引入仿真到现实（S2R）迁移学习框架，利用有标注仿真数据和无标注真实数据最小化协同3D目标检测的域差异。其中，S2R不确定性感知的视觉Transformer（S2R-UViT）模块使用局部-全局多头自注意力（LG-MSA）增强特征交互，并为自车特征分配权重，同时考虑来自其它智能体的特征的不确定因素；S2R基于智能体的特征自适应（S2R-AFA）模块则整合了智能体间的判别器和自车的判别器，允许S2R-ViT生成鲁棒的、域不变的特征表达。

除了仿真与现实的域间隙，真实协同智能体之间也有域间隙。

解耦无监督Sim2Real自适应（DUSA）通过引入位置自适应的Sim2Real适配器（LSA，使用位置重要性提示特征提取器，以生成仿真/现实不变的特征）和置信度感知的智能体间适配器（CIA，使用置信度线索帮助特征提取器输出智能体不变的特征）模块，实现了sim2real自适应和智能体间自适应。

VI. 数据集相关问题

目前的CP仍处于起步阶段，因为实地试验的成本和安全风险都很高，且精确的标注需要大量人力与时间。在仿真环境下验证是解决方案之一。

A. 仿真工具

CARLA（自动驾驶模拟器）
OpenCDA（CARLA+SUMO，用于协同驾驶自动化 $CDA$ ）
V2XP-ASG（用于基于激光雷达的V2X感知）
AUTOCASTSIM（基于CARLA，用于协同驾驶）
网络移动镜像（CMM）协同仿真平台（基于CARLA）
OpenCDA-ROS（OpenCDA的拓展，用于机器人操作系统 $ROS$ ）

B. 开源数据集

1) 真实世界数据集

评估V2X CP的直接方式是收集真实测试场景。

2) 仿真数据集

真实世界的感知数据采集时间和成本都很高，且场景种类有限，更经济的替代是从仿真平台获取数据。

VII. 性能验证与现场实验

评估CP系统需要结合仿真、离线测试及真实世界实验。仿真与离线测试能够对基于V2X的CP方法进行可控性能评估，并通过优化各项指标来实现最佳性能。相比之下，现场实验则能在真实场景下测试CP的适应性，揭示系统如何应对多样化的交通与通信挑战。

A. 性能验证

除了比较感知性能，还比较了不同方法对时间延迟的鲁棒性以及对位姿误差的鲁棒性。

V2X通信引入的时间延迟给CP带来了重大挑战，导致数据融合过程中自车与其他智能体之间的数据不同步。

协同智能体需要依赖其他智能体提供的精确位姿，才能准确进行数据坐标变换。然而，姿态误差难以避免。

VIII. 学到的经验

A. 挑战与可能的方案

1) 协同触发器

CP的主要挑战之一是，智能体能否自动确定最佳协同机会。目前的方法通常忽视评估协同是否有利，而进行预定义的协同行为。需要开发"协同触发器"，基于实时条件（如天气、路况和传感器性能）权衡独立与协同。此外，确保稳定且一致的协同也是一大挑战。

需要开发自适应且上下文感知的系统，来确定最优的协同时间。评估实时因素的动态决策模型可保证稳定高效的协同，根据这些因素动态调整融合权重，并利用感知精度与能耗指导决策。高效实施需要云计算或边缘计算平台，聚合实时与历史数据。

2) 真实通信约束

目前的多数CP模型仅关注感知性能，而忽略了真实通信约束带来的挑战。

可能的方案是整合跨层模型来评估通信约束对CP的影响。结合网络层路由技术与物理层信道建模，使CP系统能预知通信情况并自适应调整。此外，预测性感知模型可以结合历史数据和概率建模，预测周围车辆的行为，减小对连续通信的依赖。

3) 恶意与自私行为

部分道路使用者可能出于自身利益行事，仅通过合作来降低自身成本，这可能损害他人利益。此外，多个智能体的分布式部署会削弱抵御网络攻击的能力，从而增加遭受不可信用户恶意活动的风险。

可以实施信任评分与声誉系统，基于历史可靠性来选择数据。基于机器学习的异常检测、多源交叉验证、多模态融合，以及区块链技术（记录数据交互行为）和动态数据优先级排序（关键信息最优先）也有帮助。

4) 真实场景的泛化能力

许多CP模型依赖仿真数据集，泛化到真实协同设置存在挑战。

域自适应（如对抗性训练和迁移学习）和合成数据增强技术（提高数据真实度）可解决。

例如，有方法使用增强现实合成训练数据，并使用生成对抗网络（GAN）建立不同天气与光照环境下的、鲁棒的逼真图像。

5) 有挑战性的场景和边缘案例

目前的数据集通常仅包含常规驾驶场景，忽视了有挑战性的场景与边缘案例。

可结合靶向数据采集和合成数据生成方法解决。此外，可采用模型驱动的数据收集方法，其中经过训练的CP模型可实时主动监控其预测结果。该模型能够识别并标记低置信度检测结果或假阳性/假阴性结果作为潜在边缘案例。这些标记实例随后可被收集并优先用于后续训练。

B. 未来方向

1) 集成传感与通信

目前的协同自动驾驶中，传感与通信通常在不同的频段下进行。集成传感与通信（ISAC）针对传感与通信使用相同的频段和硬件，有望提高谱效率并降低硬件成本。

2) 负责任人工智能

负责任AI可为构建逼真仿真环境提供参考，且可驱动域自适应技术的发展，提高CP模型的泛化能力。此外，还可推动用于生成CP数据的深度学习方法的进步，生成包含复杂场景和边缘案例的的CP数据，从而建立全面的数据集。

3) 隐私保护型CP

FL可在保护隐私的情况下提升CP智能。FL允许模型使用自身数据训练，仅共享训练完成的模型，用于服务器的全局聚合。

4) 协同AI整合提升CP与V2X通信

未来可能在V2X通信的AI系统与CAV的协同感知AI系统之间协同。

将AI整合到车辆通信系统的无线电资源管理中，旨在高效分配通信资源，从而实现车辆、基础设施及相关实体之间的实时数据交换。

此外，CAV需要智能判断需要从其他联网车辆获取哪些信息，并决定应传输哪些数据以响应其他车辆的请求。这种决策过程高度依赖动态交通环境的变化。因此，各CAV的AI系统必须高效管理所需信息，实时适应当前及未来交通环境的变化。但要实现信息流管理的优化，各CAV需协同考量其可利用的通信资源配置。

因此未来需要AI系统之间有效协同和配合，对齐各自的目标和策略。

5) 将先进的感知框架从单车迁移到协同车辆

先进的单车感知和自动驾驶技术均有向协同车辆场景拓展的巨大潜力，有望显著提升自动驾驶能力。