NeurIPS24 | 多无人机协作精确预测车辆等目标移动轨迹, Drones Help Drones

Drones Help Drones: A Collaborative Framework for Multi-Drone Object Trajectory Prediction and Beyon

摘要
前言
[related work](#related work)
整体结构
- 4.1问题组织
- [4.2 2D Feature Extraction of Observations](#4.2 2D Feature Extraction of Observations)
- [4.3 深度估计与BEV生成](#4.3 深度估计与BEV生成)
- [4.4 通过滑动窗口模块的稀疏交互](#4.4 通过滑动窗口模块的稀疏交互)
5.实验
- [5.1 数据集](#5.1 数据集)
- [5.2 指标评估](#5.2 指标评估)
- [5.3 实现细节](#5.3 实现细节)
- [5.4 定量评估](#5.4 定量评估)
- [5.5 定性评估](#5.5 定性评估)
- [5.6 消融研究](#5.6 消融研究)
- [5.7 Generalization to Collaborative 3D Object Detection](#5.7 Generalization to Collaborative 3D Object Detection)
[5 结论与局限性](#5 结论与局限性)

摘要

协作轨迹预测通过多视角互补信息全面地预测物体的未来运动。然而，在多无人机协作环境中，它面临两个主要挑战。首先，广阔的空中观测使得精确生成鸟瞰视图（BEV）表示变得困难。其次，过多的交互会导致无法满足有限的无人机通信带宽要求的实时预测。为了应对这些问题，我们提出了一种新颖的框架，名为"无人机帮助无人机"（DHD）。首先，我们结合无人机倾斜观测所提供的地面先验信息来估计物体与无人机之间的距离，从而生成更加精确的BEV表示。其次，我们设计了一种基于局部特征差异的选择机制，在无人机之间的交互过程中优先传递对预测任务有关键作用的信息。此外，我们创建了第一个多无人机协作预测数据集，名为"Air-Co-Pred"，并通过定量和定性实验验证了DHD框架的有效性。实验结果表明，与最先进的算法相比，DHD在BEV表示中的位置偏差减少了超过20%，并且在交互时所需的传输比率仅为四分之一，同时实现了相当的预测性能。此外，DHD还在协作三维物体检测任务（CoPerception-UAVs）中展示了良好的泛化能力。

前言

多无人机物体轨迹预测 $1--3$ 旨在通过多个具有重叠观测的无人机协同识别物体并预测其未来运动，这可以克服单个无人机在遮挡、模糊和远程观测方面的局限性。鉴于任务执行的安全性和可靠性，多无人机物体轨迹预测在无人机操作中的作用不可或缺。它有助于潜在事故的早期预警和路径规划，更好地为智能城市 $4$ 、交通 $5$ 、空中监控 $6$ 和响应系统 $7$ 提供服务。当前的协同物体轨迹预测方法主要分为两种框架：多阶段预测 $8, 9$ 和端到端预测 $10, 11$ 。多阶段框架通过各自的感知结果实现协同预测。具体而言，它从每个视角的物体检测开始，如定向物体检测 $12$ 。然后，多个视角下的物体进行关联，生成的轨迹输入回归模型进行预测。相比之下，端到端方法将每个视角的2D特征转换为统一3D坐标系下的BEV特征，并进行特征级别的关联。为了应对视角转换的挑战，我们观察到无人机的倾斜观测导致了视线与地面平面的交集。因此，这一几何属性为每个像素分配了一个理论最大深度，为深度估计提供了约束。此外，考虑到物体与地面平面之间的明显差距，推导复杂的深度估计可以通过更简单的高度估计来实现。对于协同策略的设计，我们主张灵活的协同策略应该根据模型反馈动态评估每个区域对下游任务贡献的信息量。这种自适应方法确保了对环境的全面理解，涵盖了前景物体及其更广泛的环境，从而促进更准确的协同轨迹预测决策。

基于上述解决方案，本研究提出了一种名为DHD的无人机协同预测框架，该框架由基于地面先验的BEV生成（GBG）模块和通过滑动窗口的稀疏交互（SISW）模块组成。GBG模块通过相机的内外参数计算每个像素的视角。随后，基于飞行高度，该模块确定每个像素的理论最大深度。在视角和最大深度信息的引导下，相对简单的高度估计可以推导出更精确的深度，从而实现更准确的BEV表示。SISW模块通过滑动窗口分析中心特征与周围特征之间的差异，从而量化每个位置的信息量。具有显著特征变化的区域被分配较高的信息评分，表明它们包含物体或关键环境信息。此外，由于缺乏多无人机协同预测的相关数据集，本研究利用CARLA $15$ 仿真平台生成了一个新的数据集"Air-Co-Pred"，该数据集包含四架无人机在200个不同场景下的协同观测。这个模拟数据集用于验证我们提出的DHD框架在空中协作中的有效性。

随后，未来的实例分割和运动将被共同预测。与多阶段的检测-跟踪-预测管道相比，端到端框架显著提高了精度和计算效率，因此得到了广泛的应用。然而，端到端方法主要是为自动驾驶场景设计的，可能不直接适用于空中视角。具体而言，它们采用了流行的"Lift-Splat-Shoot"（LSS） $13$ 方法来预测像素级的类别深度分布，并利用相机的内外参数重建物体在3D空间中的分布。在空中环境中，观测距离显著更大，如图1所示。这个扩展的观测范围增加了深度类别，并对视角转换提出了巨大的挑战。关键是，错误的特征投影会扭曲BEV表示，严重削弱后续多无人机协作的可靠性。此外，高效的交互对于实时协同预测至关重要。流行的稀疏协同策略，如where2comm $14$ ，利用下游检测头进行信息选择。然而，这种模式缺乏灵活性，忽视了物体信息之外的有价值的上下文线索，而这些同样对于运动预测至关重要。

总结来说，我们的贡献如下：

基于地面先验的鸟瞰图（BEV）生成模块：提出了该模块，通过地面先验和高度估计引导，生成更准确的BEV表示。
通过滑动窗口的稀疏交互模块：提出了该模块，通过高效的信息交互提高多无人机物体轨迹预测的精度。
模拟数据集"Air-Co-Pred"：为多无人机协同预测设计了一个模拟数据集，用于验证所提DHD框架的有效性。

BEV生成：得益于尺度一致性和统一坐标系统，BEV在协同感知中得到了广泛应用。当前BEV特征生成的方式可分为两种：显式的2D-3D映射和隐式的3D-2D映射 $16$ 。在显式映射范式中，PON $17$ 引入了一个密集的Transformer模块，用于学习图像与BEV表示之间的映射。LSS $13$ 使用可学习的类别深度分布，将2D特征提升到3D空间，而BEVDepth $18$ 进一步对预测的深度进行显式监督。在隐式映射范式中，BEVFormer $19$ 利用可变形注意力机制生成BEV特征，而PolarFormer $17$ 采用极坐标来实现精确的特征定位。本研究采用类似于LSS的2D到3D生成方式。深度估计在BEV生成中起着至关重要的作用，我们致力于其增强。

协同策略：当前的协同方法包括基于原始测量的早期协作、基于结果的后期协作和基于特征的中间协作 $20$ 。由于性能与带宽之间的权衡，中间协作被广泛研究。例如，Who2com $21$ 引入了握手机制来选择协作伙伴，而When2com $22$ 进一步确定何时启动协作。Where2comm $14$ 利用检测头引导区域进行稀疏交互。V2VNet $23$ 通过图神经网络实现多轮消息交换。V2X-ViT $24$ 通过Transformer块探索异质协作者之间的关联。DiscoNet $25$ 采用知识蒸馏，而CORE $26$ 利用重构概念促进特征交互。UMC $27$ 和SCOPE $28$ 利用时间信息来指导特征融合。然而，这些策略大多针对检测任务进行优化，或者仅仅提高特征级别的表示。针对协同预测，V2X-Graph $29$ 利用复杂的图结构，通过基于向量图的方式预测运动，而本研究则采用基于视觉输入的预测方法。

整体结构

4.1问题组织

4.2 2D Feature Extraction of Observations

4.3 深度估计与BEV生成

在本节中，深度估计对于生成鸟瞰图（BEV）表示至关重要，因为准确的深度信息有助于创建可靠的3D地图。然而，由于无人机的观察范围广泛，传统的最小二乘表面（LSS）方法无法精确地估计每个像素的深度。为了改进这一点，本文引入了GBG模块，通过精细化每个像素的深度估计，生成更加精确的BEV表示。以下是这一过程的详细分解：

4.4 通过滑动窗口模块的稀疏交互

在空中观测中，物体通常较小且分布稀疏，导致关键性信息仅占全景视图的一小部分。在这种情况下，通过仅传输协作过程中的互补物体信息，可以显著减少通信开销 $14$ 。然而，环境信息对于预测任务也非常重要，研究 $32, 33$ 表明，周围的动态实体和静态纹理可以为预测未来趋势提供重要线索。因此，有必要在有限的数据传输中包含关键的环境元素，以便更好地进行预测。为此，我们提出了一种新的稀疏交互模块，称为 SISW，用于无人机之间的协作。该模块通过滑动窗口评估不同区域的信息量，确定无人机间交互的区域。SISW模块的工作流程如图5所示，下面对其进行详细说明：

5.实验

5.1 数据集

目前可用的多无人机协作数据集 $14$ 主要集中在目标检测和分割任务上，缺乏对预测任务的支持。为了解决这一问题，我们基于 CARLA $15$ 创建了一个名为 "Air-Co-Pred" 的模拟数据集，用于协作轨迹预测。具体而言，四架协作无人机被部署在交叉口，分别从不同方向监控交通流。这些无人机飞行在50米的高度，覆盖约100米 × 100米的区域。无人机以2Hz的频率捕捉图像，以支持时间预测任务。收集的数据集包含32,000张同步图像，分辨率为1600 × 900，并分为170个训练场景和30个验证场景。每一帧图像都有2D和3D标签的详细标注，主要包括三个物体类别：车辆、单车和行人。考虑到从空中视角观察到的小物体的挑战，本研究主要集中在车辆类别，其中包括多个子类别，以增强对各种车辆的识别能力。为了直观展示空中观察的挑战，我们提供了几张图表，展示了"Air-Co-Pred"的特点，例如遮挡、远距离观察、小物体等，如图6所示。

5.2 指标评估

5.3 实现细节

我们遵循现有研究 $10$ 中的设置进行协作轨迹预测。最初，原始图像（分辨率为900 × 1600像素）被缩放并裁剪为224 × 480的大小。对于视角转换，设置高度估计范围为0到10米，离散化为100个区间。随后，对于 BEV 表示，x、y 和 z 轴的空间范围分别设置为 $-50, 50$ 米、 $-50, 50$ 米和 $-60, -40$ 米。我们评估模型在不同感知范围下的性能：100m × 100m 区域，分辨率为0.5m（长距离），以及50m × 50m 区域，分辨率为0.25m（短距离）。在时间上，我们利用过去1秒内的三帧（包括当前帧）来预测未来四帧（2秒）的语义分割和实例运动。此外，我们为 SISW 模块选择了7×7的窗口大小，并将传输比例设置为25%，以达到综合最优性能。有关超参数消融研究的详细信息，请参见补充材料。我们的 DHD 框架使用 Adam 优化器进行训练，初始学习率为 3 × 10^−4。它在四个 RTX 4090 GPU 上运行，批处理大小为4，训练20个周期。

5.4 定量评估

表 1：不同 BEV 生成基准下的轨迹预测和定位误差分析。它们遵循基于 SISW 的交互机制，用于后续的多无人机协作。DHD (w/o H) 表示未集成高度估计的 DHD 变体。

BEV 生成基准比较

我们选择了经典的 LSS $13$ 和无人机特定的 DVDET $35$ 作为基准。为了公平比较，它们的深度估计范围设置为1到100米，分为100个区间。如表1所示，DHD 在下游性能上超过了经典的 LSS，在短距离观察中，IoU 提高了9.06%，VPQ 增加了12.11%。在长距离设置中，IoU 提高了5.06%，VPQ 增加了6.42%。尽管 DVDET 引入了可变形注意力机制来优化 BEV 表示，但在短距离设置中有所提升，而在长距离设置中，DVDET 相比于经典 LSS 展现出了明显的下降。深度估计不准确导致投影物体偏离其正确位置，导致与真实情况不匹配。具体而言，DHD 实现了更少的错误匹配和漏检，并且定位更精确，位置偏差减少了超过20%。值得注意的是，即使没有高度估计，DHD 仍然通过仅依赖地面先验知识取得了性能提升，并减少了长距离定位误差。

协作基准比较

表2显示，我们的 DHD 在协作中的表现与早期的协作方法相当，特别是在长感知范围设置下。它显著优于 No-Collaboration，在短距离设置中，IoU 提高了42.61%，VPQ 提高了45.90%；在长距离设置中，IoU 提高了74.29%，VPQ 提高了79.36%，这揭示了协作的有效性。与完全连接的基准相比，DHD 仅使用四分之一的传输比例就能达到甚至超过类似的性能。与部分连接的基准相比，DHD 在 IoU 和 VPQ 上超越了 When2com（Who2com 的升级版）近20%。此外，DHD 还超越了之前的最新方法 Where2com，例如在长距离设置中，IoU 提高了5.82%，VPQ 提高了3.85%。这是因为 DHD 不仅考虑了前景物体，还结合了相关的环境信息来进行预测。值得注意的是，近期的最新方法 UMC，基于 GRU 的特征融合，表现比我们的结果低3~4%。我们发现，它的时间融合反而削弱了原有的下游任务性能。尽管该时间先验增强了物体检测，但可能导致预测任务中的感知别名现象。

表 2：协作基准比较，针对增强的预测性能。早期协作指的是原始观测数据的协作，其中多视角图像共同生成 BEV 表示。中期协作则侧重于特征级别的交互，以实现全面的 BEV 表示。完全连接范式在所有成员之间共享完整的特征，而部分连接范式则限制交互仅限于某些成员或区域。晚期协作将多个无人机的单独预测结果合并。所有协作方法都采用 GBG 模块来生成 BEV 表示。我们的 DHD 在部分连接的中期协作范式下表现最佳。

5.5 定性评估

预测结果的可视化。图 7 展示了无人机之间的协作与无协作的对比，表明协作可以通过特征级交互获取被遮挡和超出范围物体的位置和状态。此外，DHD 正确预测了多个物体在复杂交叉口的轨迹，并且相比于知名基准方法 Where2com，DHD 实现了更准确的分割和预测结果。这归因于 Where2com 传输的特征专注于前景物体，而忽略了对下游任务有贡献的环境信息。这些发现与我们的定量评估结果一致。

图 7：不同协作基线的可视化比较分析。每个实例被分配一个独特的颜色，其预测轨迹以相同的颜色和轻微的透明度表示。红色圆圈突出显示其他基线做出错误预测的区域。

5.6 消融研究

所提模块的有效性。我们的 DHD 框架引入了两个创新组件：GBG 和 SISW 模块。我们根据这些模块在提高预测精度和优化性能与传输成本权衡方面的能力进行评估，结果如表 3 所示。仅使用 GBG 的变体显著提高了预测精度，短程预测提高了约 10%，长程预测提高了约 5%，这主要归因于更精确的 BEV 表示，由地面先验引导。而仅使用 SISW 的变体则将传输成本减少了 75%，相对于基线，性能下降约 1%。总体而言，结合这两个模块的 DHD 能够在预测增强和传输成本之间实现平衡。

5.7 Generalization to Collaborative 3D Object Detection

我们还对多无人机协作中的 3D 物体检测进行了泛化验证，使用了公开的多无人机协作数据集 CoPerception-UAVs $14$ 。我们选择了几种用于 BEV 生成的基线模型：BEVDet $36$ （一个修改版的 LSS 模型用于检测）、其时序版本 BEVDet4D $37$ 和 DVDET $35$ ，后者是 CoPerception-UAVs 的官方检测器。这些模型都采用了 SISW 模块来进行无人机间的特征级交互。

评估指标 $38$ 包括平均精度均值 (mAP)、平均绝对轨迹误差 (mATE)、平均绝对尺度误差 (mASE) 和平均绝对方向误差 (mAOE)，分别表示检测准确度、偏移误差、尺度误差和方向误差。如表 4 所示，DHD 在 mAP、mATE 和 mASE 上取得了最佳表现。具体而言，DHD 在 mAP 上提高了 25.2%，在 mATE 和 mASE 上分别减少了 13.7% 和 2.9%，相较于 BEVDet。尽管 BEVDet4D 通过时序信息优化了深度估计，但结果表明，地面先验对于空中深度估计更为关键。值得注意的是，DVDET 在方向误差上优于 DHD，这可能归因于其可变形注意力机制。

5 结论与局限性

本文提出了 DHD，一个多无人机物体轨迹预测的协作框架。其 GBG 模块利用地面先验和简化的高度估计来生成更精确的 BEV 表示。同时，SISW 模块根据滑动窗口的信息量计算自适应地选择区域进行协作交互。此外，我们构建了首个多无人机协作预测的模拟数据集"Air-Co-Pred"，通过定量和定性实验评估了 DHD 的有效性。

局限性与未来工作：当前的研究仅在模拟环境中进行了多无人机物体轨迹预测，这是一种理想化的场景。为了实现更广泛的实际应用，未来的研究将扩展到真实环境中，考虑现实中的限制因素，如延迟、相机外参噪声等。