MMAUD：面向现代微型无人机威胁的全面多模态反无人机数据集

摘要

针对小型无人机（UAV）不断演变的挑战（其具备运输有害载荷或独立造成破坏的潜力），我们推出了 MMAUD：一个全面的多模态反无人机数据集。MMAUD 通过专注于无人机检测、无人机类型分类和轨迹估计，填补了当代威胁检测方法中的关键空白。MMAUD 的突出之处在于融合了多种传感输入，包括立体视觉、各类激光雷达（Lidar）、雷达（Radar）和音频阵列。它提供了一种独特的俯视空中检测视角，对于解决现实场景具有比使用热成像和 RGB 相机在特定视点捕获的数据集更高的保真度。此外，MMAUD 提供了由徕卡（Leica）生成的高精度地面真值数据，增强了可信度，并能够可靠地改进算法和模型，这是其他数据集从未具备的。大多数现有工作不公开其数据集，这使得 MMAUD 成为开发准确高效解决方案的宝贵资源。我们提出的模态具有成本效益且高度适应性强，允许用户实验和实现新的无人机威胁检测工具。我们的数据集通过融入环境重型机械噪声，紧密模拟了现实场景。这种方法增强了数据集的适用性，捕捉到了近距离车辆操作期间面临的实际挑战。预计 MMAUD 将在推进无人机威胁检测、分类、轨迹估计等能力方面发挥关键作用。我们的数据集、代码和设计将在 https://github.com/ntu-aris/MMAUD 公开。

关键词：无人机，激光雷达，音频，视频融合，检测，分类，轨迹估计

I. 引言

在商用现成（COTS）紧凑型无人机 capabilities 卓越的时代，其滥用潜力巨大。这些无人机具有广泛的航程、高海拔作业能力，并能最大限度地减少热和声学特征，使其隐蔽且适合未经授权进入限制区域或被重新用于潜在有害活动。近期的战争冲突凸显了这些民用无人机的适应性，它们成功规避了甚至依赖红外或雷达瞄准的便携式防空系统。其降低传感器特征的能力对传统检测方法提出了挑战，提供了一种实现空中隐蔽的经济高效手段，并对生命安全构成威胁。

为应对这些不断演变的挑战，我们推出了反无人机数据集，这是一个用于检测、分类、跟踪和估计此类无人机轨迹的综合数据集。我们的贡献可总结如下：

我们引入了一个多模态数据集，集成了视觉、激光雷达阵列、雷达和音频阵列传感器，为先进的无人机检测技术提供了丰富多样的数据来源，如图 1 所示。
利用徕卡生成的地面真值数据，我们的数据集在反无人机数据集领域设立了前所未有的毫米级精度基准，这是以往数据集所不具备的显著特征。
我们的方法采用经济高效的传感器配置和开源代码，促进了移动就绪、拯救生命应用的开发。代码和数据集对社区完全开放，鼓励协作研究和创新。

II. 相关工作

据我们所知，涵盖多模态感知工具用于 COTS 无人机检测、跟踪、分类和轨迹估计任务的数据集寥寥无几，如表 I 所示。大多数用于跟踪的社区数据集主要关注汽车 [1] 和行人 [2] 等常见物体，虽有潜力纳入无人机等新类别，但 2D 检测数据集通常提供图像却缺乏 3D 位置地面真值和充足的标注。

近年来，CVPR 出现了反无人机挑战赛 [3]--[5]。然而，这些数据集 [3],[4],[5],[6],[7],[8] 依赖于昂贵的热成像和 RGB 相机，通常部署在高处视点，且常需人工干预进行精确瞄准。它们主要专注于目标检测和 2D 跟踪，缺乏 3D 轨迹估计。这些数据集主要为计算机视觉相关挑战设计，很少适用于现实野外应用。

某些研究致力于开发无人机对抗系统。然而，即使是提供数据集 [11] 的研究，也通常模态和地面真值有限，主要设计用于室内应用。此外，大多数其他数据集 [6]--[8],[10],[11] 仅使用一到两种模态，并采用手动或半自动标注，这对全面和泛化的评估构成了挑战。部分数据集 [9] 专注于通过音频输入进行无人机分类，但缺乏空间信息和传感器套件的威胁指示。

Zheng 等人 [12] 提出了一种新思路，采用多视图立体设置检测和跟踪附近无人机。然而，其工作因缺乏公开代码和数据集而受阻。此外，他们提出的系统成本高昂，且涉及 $16$ -- $32$ 个相机阵列的复杂同步和计算。鉴于近期战争冲突的经验，识别头顶威胁的能力至关重要，且倾向于采用经济实惠的传感器配置以促进关键生命拯救应用的广泛采用。

在许多情况下，已提出新的无人机检测方法 [13]--[23]，各自声称达到一定的精度和性能水平。然而，这些方法均未提供其数据集或源代码的访问权限，且明显缺乏对如何获取精确地面真值的讨论，这一方面是我们先前工作 [24] 的区分点。缺乏开放数据集和代码贡献引发了对其发现有效性和可重复性的担忧。

其他理论研究 [25]--[29] 利用距离 [26],[28] 或方位角 [25] 观测进行无人机状态估计和跟踪。然而，这些方法在现实场景中通常被视为不切实际，因为它们严重依赖特定假设且无法验证其有效性。

射频（RF）检测是另一种方法，但由于无人机频率范围广泛而面临挑战。开发单一设备以有效监控所有频道十分困难。部分无人机不发射 RF 信号，使得 RF 检测不可靠。DJI Aeroscope 等商用无人机检测系统已经存在，降低了在我们的数据集中纳入该模态的必要性。

III. 传感器设置

为容纳整个传感器套件，我们设计了一个定制铝制支架，如图 1 所示。表 I 总结了各传感器及其规格。每条消息均根据其在 ROS 中的发布时间添加时间戳。下面我们将更详细地介绍每个传感器。

立体相机 ：MMAUD 数据集包含两个向上定向的 PIXELXYZ 彩色相机，成本约 $200$ 美元。这些相机通过集成触发机制同步，确保同时捕获和传输图像。图像拼接后通过 UVC 相机协议传输。基线间距约 $17.8\text{cm}$ ，该立体设置可实现高达 $20\text{m}$ 的鲁棒立体深度感知，在理想情况下，单台相机可在 $100\text{m}$ 外以 $2560\times960$ 分辨率看到无人机。每台相机提供广阔的 $180^\circ$ 视场角，极大增强了整个地平线上的无人机检测能力，同时形成局部穹顶状检测体积。这种穹顶状感知概念与早期先进研究 [12] 相似。然而，我们的方法成本效益显著更高，采用预算友好的双相机立体设置，而非价值 $14000$ 美元的 32 相机立体系统。此外，尽管这些相机由中国小型工坊制造，但其成像质量优于 Flir Blackfly 同类产品。最终目标是将此系统转化为可穿戴或车载设备，以合理成本有效缓解无人机威胁。
锥形 3D 激光雷达 ：本数据集还包括一个向上定向的 DJI Livox Avia 激光雷达系统，设计用于锥形检测。该系统有效覆盖中心 $70^\circ$ 锥形视场角，可靠检测距离高达 $300\text{m}$ 的物体。其非重复扫描模式确保视场内有可能检测到无人机，尽管无法保证持续检测。虽然存在更经济的替代品（如 Livox Mid 50、Mid-60 和 Horizon），但选择此传感器是为了内部 IMU 集成。此集成便于未来在移动车辆中使用，实现点云数据的运动补偿。不过，该功能不在本文讨论范围内。
外围 3D 激光雷达 ：本研究采用外围水平放置的 DJI Livox Mid360 激光雷达系统，被证明是经济高效的解决方案。Mid360 提供广阔的 $360^\circ$ 水平视场角和地面上方 $59^\circ$ 垂直视场角，高度 capable 检测 $70\text{m}$ 范围内的物体。其非重复扫描模式确保视场内所有点被有效扫描，是检测接近 rogue 无人机的理想选择。此成本效益设备在增强系统检测附近障碍物和潜在威胁的能力方面发挥关键作用。
音频阵列 ：无人机的一个显著特征是其独特的噪声发射。在我们的研究中，我们通过在传感器支架上安装四个经济高效的海康威视 DS-VM1 全向麦克风阵列来增强无人机检测，这是一种适合大规模部署的低成本 4 通道变体。这些阵列有效捕获高达 $10\text{m}$ 范围内的人声噪声水平。这些麦克风在 $30\text{-}40\text{m}$ 距离处也能出色检测更响亮的无人机。值得注意的是，四个麦克风阵列仅花费 $150$ 美元，使其预算友好且适用于各种场景。我们将四个麦克风战略性地布置成十字形配置，从而能够使用精确的到达时间差（TDOA）方法有效确定 incoming 无人机的方向和范围。这一创新增强了检测和应对潜在威胁的能力，使其成为多种场景中的宝贵资产。
毫米波雷达 ：最后，我们为数据集引入了一个高价值组件------Oculii Eagle ETH04 77GHz 毫米波点云成像雷达，成本约 $3600$ 美元。该雷达是数据集中最有价值的组件之一，与文献和现实部署系统中用于无人机威胁检测的系统一致。我们选择该单元是基于其卓越属性，特别是相较于 TI（如 TI AWR1843）雷达，具有更长的检测范围和更优的封装。Eagle ETH04 雷达拥有 $120^\circ$ 水平视场角和 $30^\circ$ 垂直视场角。在检测高达 $350\text{m}$ 的移动物体方面表现出色。该雷达的增强功能使其成为数据集中的突出补充，进一步丰富了其在各种场景中的潜在应用和有效性。
地面真值 ：利用徕卡 Nova MS60 多站仪，我们跟踪放置在无人机上的晶体棱镜，作为位置估计的宝贵地面真值来源，如图 3 所示。值得注意的是，该地面真值系统采用的坐标系在启动过程中与重力场对齐，导致其 $z$ 轴指向重力相反方向。徕卡跟踪系统以 $5\text{Hz}$ 频率记录无人机地面真值位置。为确保准确同步，我们根据徕卡系统提供的时间戳对数据进行分段。这使我们能够将每张图像与其对应的地面真值位置精确对齐。

IV. 数据集特征

数据集分为六组，分别对应不同的无人机类型：Mavic2、Mavic3、Avata、Phantom4、M300 以及环境噪声序列，如图 2 所示。无人机的速度、尺寸和估计的雷达截面积（RCS）均根据相对地面真值进行了精确建模。每个序列均包含视觉、 $4\times$ 音频、 $2\times$ 激光雷达和雷达信息，如图 3 所示。

认识到音频模态的重要性，我们基于先前工作 [30] 的评审意见，在户外环境中进行了测试，以创造更逼真的设置。具体而言，我们选择了具有环境噪声特征的地点，包括重型机械的运行和强大空调系统的存在。此外，在更高海拔处，风噪增加了音频数据的复杂性，使检测更具挑战性，并增强了系统的现实感。

值得注意的是，我们未包含夜间或雨天条件下收集的数据。这一决定基于以下事实：无人机在夜间因其灯光而易于检测，且在雨天面临运行挑战，使得此类数据对我们的数据集相关性较低。

V. 数据格式

我们的数据集以便捷的两种广泛使用的格式提供：rosbag 格式和文件系统格式。rosbag 格式中的具体数据结构如表 II 所示。

Rosbag 格式 ：Rosbag 在机器人社区中广泛使用。虽然所有测量均遵循 SI 单位，但需要注意的是，消息时间戳采用 ros::Time 格式，位于 header.stamp 字段中。这些时间戳由 ROS 消息发布时的传感器驱动程序生成。此外，激光雷达点云采用自定义格式，包含每个点的单独时间戳。我们提供脚本以方便将这些点转换为标准的 sensor_msgs::PointCloud2 格式。

文件系统格式 ：该格式在机器学习社区中广受青睐。本质上，它涉及从 rosbag 文件中提取图像、原始音频数据、点云和地面真值，然后按顺序存储以便于访问和管理。为提供更清晰的说明，这包括将图像保存为 PNG 格式，将音频数据分解为 $1$ 秒片段并以 numpy 格式存储，将点云数据保留为 PCD 格式，并将每个时间戳的 3D 位置数据保留在 python-numpy 文件中供将来参考。重要的是，python-numpy 文件将会提供。

VI. 传感器校准

该传感器阵列涵盖多种传感模态，每种都有其独特的校准挑战。为有效应对这些挑战，我们采用分而治之的方法。

对于立体校准，我们利用 Matlab 校准工具 [31] 精确校准两台相机之间的内参和外参。在相机到激光雷达校准方面，我们采用无目标校准方法 [32]，确保精确对齐。

由于音频和毫米波雷达传感器与其他模态的对应关系有限，校准它们更为复杂。在这些情况下，我们借助 CAD 图纸建立参考点，specifically 将其与顶部居中的 Livox Mid360 激光雷达对齐。考虑到这些传感器固有的复杂性及其与传统校准技术的不兼容性，这种方法变得至关重要。

VII. 评估与基准测试

本节展示了各种基于图像和音频的 2D 检测和 3D 估计方法的基线基准测试。由于篇幅限制，此处不涵盖基于激光雷达或雷达的模型，但其性能和源代码将在数据集网页上提供。

我们收集了超过 $1700$ 秒的多模态 rosbag 格式数据，随后将其划分为 $50$ 个较小的序列。每个序列包含充足的视觉、激光雷达、音频和雷达数据用于识别。在这 $50$ 个较小序列中，我们将 $60\%$ 的数据分配给训练集， $20\%$ 给测试集，剩余 $20\%$ 给验证集。

每个模型在训练参数（尤其是学习率）上略有不同。但需要注意的是，所有模型在训练期间共享相同的批量大小（batch size）为 $8$ 。我们使用平均精度均值（ $\text{mAP}$ ）和帧每秒（FPS）测量来评估这些流行方法在我们的数据集上的 2D 检测基准性能。结果如表 III 所示。

目前，尚未对任何模型进行微调或剪枝以优化性能。在流行网络中，Yolo 系列在大多数情况下优于其他方法，如图 5 所示。Centernet 等模型在检测汽车或卡车等其他类型车辆方面表现出色，但在无人机预测方面性能显著下降。这主要是因为无人机目标远小于其他车辆，如图 4 所示。

在 3D 位置估计方面，我们对几个知名网络进行了调整，以确定基于音频或视觉输入的无人机目标的 3D 位置。与 2D 检测场景类似，不同情况下的学习率有所不同，但我们保持一致的批量大小 $8$ 。在评估 3D 位置估计时，我们使用术语相对位置误差 $e$ 来衡量模型输出与地面真值之间的差异。

3D 位置估计的综合性能评估总结于表 IV。所有视觉模型表现出一致且略高于 $0.5$ 米的误差，表明它们能够准确估计物体尺寸并提供合理的物体距离和位置估计。然而，由于背景机械噪声的严重影响，基于音频的方法面临重大挑战，导致误差达到 $2.6$ 米。需要强调的是，此类兼容的开源算法可用性有限，导致该领域的研究范围较窄。

VIII. 问题与挑战

在我们的研究过程中，我们遇到了一系列必须承认的重大挑战和局限性。

A. 地理覆盖范围有限 ：我们的数据收集工作受到无人机飞行可用地理区域严格限制。新加坡的监管框架要求获得土地所有者的许可，且近 $70\%$ 的区域因靠近机场和空军基地而被指定为禁飞区。因此，我们在多样化环境中进行无人机实验的能力受到严重限制。为确保遵守禁止拍摄包含个人或车辆图像的当地隐私法，我们的实验大多在屋顶进行。

B. 传感器同步 ：我们力求实现所有传感器的同步以提高训练数据质量。然而，大多数传感器缺乏固有的同步能力。我们的经济型相机成本效益高，但无法外部触发。此外，音频数据采样率为 $41.8\text{kHz}$ ，与其他模态的采样率显著不同。因此，在不产生高昂硬件成本的情况下实现跨所有模态的同步是一项艰巨挑战。

C. 无人机变体有限：我们的数据集仅包含有限数量的公开可用无人机型号数据。考虑到市场上无人机的广泛多样性，我们的数据收集工作仅代表现有无人机类型的一小部分。无人机设计的巨大差异进一步复杂化了我们在所有无人机类别中汇编全面数据的能力。

D. 地面真值频率与数据缺失 ：徕卡生成的地面真值数据捕获频率仅为 $5\text{Hz}$ 。虽然该频率满足许多应用的需求，但对于需要更高时间精度的某些研究场景可能不够。此外，当无人机执行急转弯或徕卡无法同时跟踪无人机所有侧面时，地面真值数据偶尔会出现间隙。

尽管存在这些挑战和局限性，我们的研究为无人机检测、跟踪、分类和轨迹估计领域贡献了宝贵的见解和数据集。

IX. 结论

总之，MMAUD 数据集代表了应对小型无人机带来挑战的重大进展。它专注于空中检测、无人机类型分类和轨迹估计，弥合了当前空中威胁检测方法中的关键空白。MMAUD 利用包括立体视觉、激光雷达、雷达和音频阵列在内的多样化传感输入，提供了独特且实用的视角。MMAUD 的一个重要亮点是依赖徕卡生成的地面真值，该真值在户外实际场景中被认可具有卓越的准确性，这是其他数据集无法比拟的特征。虽然我们承认在数据收集监管限制和传感器同步挑战方面存在一些局限性，但 MMAUD 仍然是开发精确反无人机解决方案的宝贵资源。