摘要
https://arxiv.org/pdf/2510.12565
基于无人机的多目标跟踪至关重要,但由于目标尺寸小、严重遮挡和复杂背景而极具挑战性。现有的基于RGB的多目标跟踪算法严重依赖于空间外观线索,如颜色和纹理,这些特征在俯视视角下常常退化,损害了跟踪可靠性。多光谱成像捕获像素级的光谱反射率,提供了关键的光谱线索,显著增强了在空间条件恶劣情况下的目标可区分性。然而,缺乏专门的多光谱无人机数据集阻碍了该领域的发展。为了弥合这一差距,我们引入了MMOT,首个面向无人机多光谱多目标跟踪的挑战性基准数据集。它具有三个关键特性:(i) 大规模---125个视频序列,涵盖八个目标类别,超过488.8K个标注;(ii) 全面的挑战---涵盖各种现实世界挑战,如极小目标、高密度场景、严重遮挡和复杂的平台运动;(iii) 精确的方向性标注---能够在俯视视角下实现精确定位并减少目标歧义。为了更好地提取光谱特征并利用方向性标注,我们进一步提出了一种多光谱和方向感知的MOT方案,该方案改编了现有MOT方法,具有:(i) 一个轻量级的光谱3D-Stem模块,在保留与RGB预训练兼容性的同时整合光谱特征;(ii) 一个方向感知卡尔曼滤波器用于精确状态估计;(iii) 一个端到端的方向自适应变换器架构。在代表性跟踪器上进行的大量实验一致表明,多光谱输入显著提高了跟踪性能,特别是对于小尺寸和密集排列的目标。我们相信我们的工作将有助于推动社区在无人机多光谱多目标跟踪研究方面的进步。我们的MMOT数据集、代码和基准测试已在https://github.com/Annzstbl/MMOT公开发布。
1 引言
无人机(UAV)作为多目标跟踪(MOT)的多功能平台,在动态、大规模环境中支持监控[1]、搜索救援[2]和空中配送[3]等应用。在实践中,基于无人机的MOT面临几个重大挑战,包括远距离目标分辨率低、目标密度高和背景复杂。传统的基于RGB的跟踪算法主要依赖于空间外观特征进行目标检测和关联,如形状、颜色和纹理。然而,在如此具有挑战性的空中场景中,这些特征会严重退化或变得不明显,导致目标跟踪的可区分性降低,如图1(a)所示,其中行人在视觉上与背景难以区分。因此,探索超越空间外观的补充特征维度,以增强目标可分离性并提高无人机多目标跟踪的准确性和鲁棒性,显得至关重要。

多光谱成像(MSI)捕获空间和光谱线索,实现像素级光谱测量,揭示超出视觉外观的目标特性,提供比RGB更丰富的场景表示。光谱维度提供了补充线索,改善了目标区分和关联,特别是在小目标和复杂背景条件下。如图1所示,由于尺寸小和颜色相似,行人在RGB中在视觉上与背景难以区分。相比之下,MSI揭示了明显的光谱差异,如不同的光谱曲线所证实的,从而提高了目标-背景的可分离性。因此,与传统的RGB图像相比,多光谱数据通过引入互补且具有区分性的光谱维度,为目标跟踪提供了更有效的解决方案。然而,缺乏专门针对无人机多光谱多目标跟踪的数据集是一个重大空白,限制了这一新兴领域中先进方法的开发和评估。
为弥合这一差距,本工作提出了MMOT,首个大规模、具有挑战性的多光谱无人机MOT数据集。该数据集使用向下视角的无人机多光谱相机收集,捕捉了不同日期、飞行高度和天气条件下的真实城市场景。该数据集具有三个关键特性:
-
大规模数据:该数据集包含125个视频序列,总计13.8K帧,空间分辨率为1200×900,8个光谱波段覆盖从可见光到近红外范围。它包含488.8K个标注边界框,均为人工标注,需要超过5,000工作小时,从而确保高质量标注并提供坚实基础。
-
全面的挑战性属性:在数据收集过程中,仔细考虑了无人机MOT在现实场景中遇到的挑战,包括极小目标、密集实例、严重遮挡、快速目标运动和不规则无人机运动。这些条件在实际应用中自然出现,共同反映了鲁棒跟踪系统必须应对的复杂条件。
-
精确的方向性边界框标注:由于俯视视角下目标方向的任意性,方向性边界框(OBBs)对于准确表示目标、减少目标间和帧间歧义以及增强目标关联性能至关重要。为此,我们采用多阶段标注流程,确保OBBs的几何精度。
现有的MOT算法大多是为具有轴对齐框的RGB输入设计的,限制了它们在多光谱和方向感知任务上的有效性。为克服这一限制,我们进一步提出了一种统一的适应方案,使主流MOT框架能够利用光谱信息和OBB标注。这包括一个轻量级的光谱3D-Stem模块用于光谱-空间特征提取(兼容RGB预训练权重)、一个用于运动建模的方向感知卡尔曼滤波器,以及一个端到端的方向自适应变换器框架。
所提出的数据集和适应方案共同为推进多光谱无人机多目标跟踪奠定了坚实基础。广泛的实验和基准测试表明,与基于RGB的对应方法相比,性能有显著提升。光谱信息显著增强了检测和身份关联,特别是对于空间线索有限的小目标。总之,数据集和方法既提供了关键的数据支持,也提供了实用的建模策略,为未来方向感知、多光谱MOT研究铺平了道路。
我们的主要贡献包括:(i) MMOT,首个具有精确方向边界框标注的无人机多光谱多目标跟踪挑战性基准;(ii) 一个全面的方向感知多光谱MOT解决方案,包含所提出的光谱3D-Stem模块、方向感知卡尔曼滤波器和端到端方向感知跟踪框架;(iii) 通过广泛的实验评估进行全面基准测试,为未来研究奠定基础。所有数据集和代码均已公开发布,以促进进一步开发和可重复性。
2 相关工作
基于无人机的多目标跟踪数据集。无人机在MOT领域的日益增长兴趣催生了针对俯视视角的专业数据集。UAVDT数据集[4]专门针对车辆检测和跟踪,涵盖各种真实交通场景,标注了关键属性如天气条件、相机高度和视角。同样,VisDrone数据集[5]提供了由中国14个城市DJI无人机收集的综合基准,捕捉了多样化的城市和郊区环境、变化的照明条件和复杂的天气状况。将无人机跟踪扩展到野生动物监测领域,BuckTales数据集[6]提供了用于跟踪和重新识别黑羚羊的标注视频,呈现了自然环境中动物跟踪的独特挑战。
用于视觉跟踪的多光谱数据集。最近引入了几个MSI数据集用于视觉跟踪。HOT数据集[7]包含50个使用马赛克快照相机收集的序列,强调了光谱多样性在挑战性场景中的优势。HOTC 2024挑战赛进一步推动了这一进展,收录了346个由各种传感器捕获的视频。对于无人机应用,MUST数据集[8]提供了在各种条件下记录的250个单目标跟踪序列,跨越八个波段,验证了光谱数据在空中环境中的优势。尽管取得了这些进展,这些努力仅限于单目标或一般跟踪。
通用多目标跟踪数据集。为了支持多样化的跟踪场景,已开发了各种通用MOT数据集。MOTChallenge基准测试如MOT15[9]、MOT17[10]和MOT20[11],以及DanceTrack[12]和SportsMOT[13],主要关注在拥挤或低区分度条件下的行人跟踪。TAO[14]扩展到大规模、多类别目标跟踪,支持类别不可知模型的研究。在自动驾驶领域,KITTI[15]和BDD100K[16]提供了从车载传感器收集的以车辆为中心的多目标跟踪数据集。
3 MMOT数据集
3.1 构建原则
MMOT的目标是建立一个全面且具有挑战性的基准,专为现实世界场景中的无人机多目标跟踪定制,特别关注整合丰富的光谱模态和精确的几何标注。
为此,以下原则指导了MMOT数据集的设计和构建:
-
可扩展和多样化的数据基础:构建MMOT的基本原则是确保足够的数据量以支持深度模型训练和可靠评估。为此,我们构建了一个大规模数据集,包含超过100个视频序列和约500K标注实例,能够在各种条件和目标类别下进行稳健学习。
-
广泛覆盖现实世界挑战和场景:我们针对多样化的无人机场景,跨越城市、农村和动态环境,具有丰富的目标尺度、密度、遮挡和相机运动变化,以全面反映现实世界跟踪的复杂性。
-
用于无人机视角的OBB标注 :为了解决空间失真并减少帧间和目标间歧义,如图2所示,我们采用OBBs,它们更好地符合目标几何形状,减少目标间误差,提高定位精度和目标关联性能。

3.2 数据集概述
MMOT是首个大规模无人机多光谱MOT数据集,旨在推动在具有挑战性的空中场景中MOT研究,包含125个视频序列和488.8K个标注OBBs。类别层次结构良好组织,包含三个超类------HUMAN(行人)、VEHICLE(汽车、货车、卡车、公共汽车)和BICYCLE(自行车、带篷自行车、三轮车)------跨越总共八个细粒度目标类型。

表1总结了MMOT与代表性通用和无人机MOT数据集的比较概述。MOT20、DanceTrack和SportsMOT仅关注受约束环境(如监控、团体舞蹈或运动场地)中的行人跟踪。尽管这些数据集提供了大规模和密集的标注,但它们在目标类型和观察条件方面缺乏多样性,仅提供RGB图像---这限制了它们在建模无人机多目标跟踪中典型的复杂运动动态和视觉退化方面的实用性。与UAVDT和VisDrone相比,MMOT提供了显著延长的跟踪持续时间和更高的标注密度,平均每帧35.2个目标。它还支持更广泛的目标类别(8 vs. 3和5),更好地反映了涉及多类别和密集目标的真实世界无人机部署的复杂性。最值得注意的是,MMOT是六个数据集中唯一同时提供多光谱图像和精确方向边界框标注的数据集,使多光谱和方向感知跟踪模型的研究成为可能。
3.3 数据集构建
数据采集。MMOT使用配备向下视角多光谱相机的无人机构建,该相机捕获从可见光到近红外光谱范围的八个光谱波段,数据在80至200米的动态高度飞行期间采集。为确保数据集反映真实部署条件,数据在各种天气场景下收集,包括晴天、多云天和浓雾。同时,覆盖了广泛的环境,包括城市街道、农村田野、交通十字路口、交通枢纽、操场和运动场地。所有帧都经过精确配准,确保光谱通道间的像素级对齐,然后统一裁剪为1200×900像素,生成高质量的多光谱序列,用于可靠的空中跟踪。
标注 。MMOT是一个精心策划的数据集,包含超过5,000人小时的手动标注,专为训练、评估和可视化空中场景中的方向感知MOT模型而定制。它遵循严格的标注协议,并整合增强工具支持,确保标注质量和操作可扩展性。图3显示了细粒度对齐和精确标注小目标的挑战。

为实现高标注精度和时间一致性,MMOT为每个目标分配唯一的身份标识,并采用OBBs。标注人员遵循五重协议,确保标注质量和完整性:
- 详尽的类别覆盖:必须标注所有预定义类别中的实例,无论大小或持续时间。
- 光谱辅助:当目标在伪彩色图像中不够明显时,标注人员检查其他光谱通道,确定目标最易区分的通道,并用它来确定目标的存在、空间位置和边界。
- 模糊情况的时间验证:对于难以基于单一帧确认的目标,标注人员必须审查整个视频序列,以确定身份并确保时间一致和准确的标注。
- 空间完整性:必须标注完整的目标范围,即使在遮挡、截断或运动模糊情况下,使用时间上下文和形状先验。
- 身份一致性:每个目标必须在整个视频中保持唯一ID,不允许重新分配或重复。
基于这些标注原则,一个多阶段标注工作流---包括初始框放置、框细化、身份分配、身份校正和专家级交叉验证---确保标注准确性,同时支持大规模部署。超过20名训练有素的标注人员处理主要阶段,最终由三名资深专家审查。这一综合框架显著提高了标注效率和可靠性,提供了高质量标注,非常适合稳健的多光谱空中跟踪研究。
为保持与现代MOT模型的兼容性,应用了自动后处理。如果实例中心位于图像帧外部,其前景交集(IoF)小于0.5,或其边界框超出图像边界超过100像素,则丢弃这些实例。部分被图像边界切割但不符合这些移除标准的对象将被保留并标记为截断。
数据集分割。MMOT分为训练集和测试集,以支持在各种真实世界无人机跟踪条件下进行稳健的算法开发和评估。为确保公平性和泛化性,环境因素如光照条件和天气状态在两个子集之间均匀分布,且没有地理位置或特定场景实例同时出现在两个分割中,以避免过拟合。如图4(a)所示,最终分割包括75个训练序列和50个测试序列。训练集包含8,372帧、6,101个身份一致的轨迹和292K个旋转边界框,而测试集包含5,446帧、4,527个轨迹和196K个边界框。这种仔细的分割避免了分布偏差,确保评估反映对新空间和上下文场景的真实泛化能力。
3.4 统计分析
尺寸和密度挑战 。如图4(b)所示,小目标主导整体分布,突显了微小目标的普遍性。此外,如图4©所示,所有类别都显示出目标尺寸的广泛差异,这反映了UAV飞行高度和地面采样距离在数据采集过程中的可变性。除了目标尺寸,表2将MMOT与现有基于UAV的MOT基准在空间密度和运动复杂性方面进行了比较。MMOT实现了最高的目标密度,每帧最多155个目标,平均在300像素半径内有19.4个目标,超过了VisDrone-MOT(147, 14.7)和UAVDT-MOT(82, 18.0)。这些结果强调了MMOT的固有难度:微小、低分辨率目标占主导地位,加上高度可变和局部集中的密度,限制了纯空间特征的有效性。

帧间位移和重叠分析 。帧间目标动态表示一个关键特征,因为许多MOT算法严重依赖一致的运动模式来维持身份关联。在无人机到地面的场景中,每个目标的表观运动来自两个耦合源:无人机平台的自我运动和目标本身的内在运动。如表2详细所示,我们通过KLT光流[17]估计平台运动,并将其与目标运动解耦,以独立评估这两个组成部分。与VisDrone-MOT(无人机/目标/总位移为2.3/2.8/4.2像素)和UAVDT-MOT(1.4/1.1/1.2像素)相比,MMOT表现出明显更大的动态性,平均无人机、目标和总位移幅度分别为14.1、4.3和14.4像素。这种强烈的表观运动伴随着明显较低的帧间IoU,目标运动平均为0.68,总运动仅为0.30---远低于先前数据集中观察到的0.9范围。图4(d)中的IoU分布进一步支持这一发现,显示大多数目标保持低于0.1的重叠,这在传统MOT场景中很少见。这些结果突显了仅使用运动线索实现可靠帧间关联的难度,因为小目标尺寸、强烈的自我运动和快速局部运动的综合效应严重破坏了帧间的空间连续性。

类别分布和轨迹持续时间的长尾特性。如图4(e)和图4(f)所示,我们分析了类别实例数量分布和轨迹持续时间分布,两种分布都表现出明显的长尾行为。这种长尾分布反映了对频繁观察到的小目标(如行人和汽车)以及由快速运动引起的短寿命轨迹的自然偏向。目标类别和持续时间的这种不平衡对现实世界MOT算法提出了关键挑战。
4 多光谱和方向感知MOT方案
为解决现有MOT算法在处理多光谱输入和利用精确OBB标注方面的局限性,我们提出了一种统一的多光谱和方向感知MOT方案。按照这一设计,我们改编了八个代表性MOT算法SORT[18]、ByteTrack[19]、OC-SORT[20]、BoT-SORT[21]、MOTR[22]、MOTRv2[23]、MeMOTR[24]和MOTIP[25],以及一个检测算法YOLOv11[26]。
4.1 用于多光谱跟踪的光谱3D-Stem
多光谱跟踪中的通道不匹配 。传统的基于RGB的跟踪模型设计用于处理图像IRGB∈RH×W×3I_{RGB}\in R^{H\times W\times3}IRGB∈RH×W×3,而多光谱图像提供输入IMSI∈RH×W×8I_{MSI}\in R^{H\times W\times8}IMSI∈RH×W×8。这种通道维度的不匹配使得直接应用预训练CNN变得不可行。一个简单解决方案是替换第一卷积层以接受8通道输入。这种设计迫使通过单个卷积层直接压缩光谱特征,限制了表达能力。此外,它破坏了与广泛使用的RGB预训练权重的兼容性,阻碍了迁移学习,需要重新初始化,损害训练稳定性。

通过光谱3D-Stem进行光谱-空间特征编码。我们提出了一种轻量但有效的光谱3D-Stem模块,用于联合光谱-空间特征提取。如图5所示,一个具有光谱核大小为3的3D卷积沿光谱轴滑动,以捕获局部光谱变化,并生成八组特征图,每组对应特定光谱波段。随后,另一个具有光谱核大小为8的3D卷积在整个光谱范围内聚合信息,同时保留学习到的空间语义。
高效的参数重用,开销最小 。我们的设计确保Conv3D层保持与RGB对应层相同数量的可学习参数,实现预训练RGB权重的无缝重用。具体来说,添加的深度卷积Conv3D仅引入8×D8\times D8×D额外参数,其中DDD是输出通道维度。这种架构对齐允许从训练良好的RGB权重初始化,促进稳定收敛和高效优化,同时不损害模型捕获多光谱线索的能力。
4.2 基于检测的方向感知状态估计跟踪
我们将基于检测的跟踪器中使用的原始基于卡尔曼滤波器的运动模型扩展,以显式包含方向。具体来说,引入了一个方向感知运动状态:x=[u,v,s1,s2,θ,x˙,y˙,s˙1,s˙2,θ˙]⊤x=[u, v, s_1, s_2, \theta, \dot{x}, \dot{y}, \dot{s}_1, \dot{s}_2, \dot{\theta}]^\topx=[u,v,s1,s2,θ,x˙,y˙,s˙1,s˙2,θ˙]⊤,其中(u,v)(u, v)(u,v)表示方向边界框中心坐标,s1s_1s1和s2s_2s2表示大小参数(其定义因方法而异),θ\thetaθ表示方向角度,x˙,y˙,s˙1,s˙2,θ˙\dot{x}, \dot{y}, \dot{s}_1, \dot{s}_2, \dot{\theta}x˙,y˙,s˙1,s˙2,θ˙表示相应速度。对于数据关联,我们用方向感知IoU(rIoU)度量替换了IoU计算,准确捕获方向边界框之间的空间关系。
4.3 用于端到端跟踪的方向敏感架构
角度预测头 。基于查询的跟踪方法以端到端方式同时预测目标位置和身份,通常建立在DETR类架构[27]及其变体之上。为使这些方法能够处理方向边界框,我们引入了一个与框头并行的额外角度头分支,显式预测归一化方向角度θ^∈[0,1]\hat{\theta}\in[0, 1]θ^∈[0,1]。给定解码器嵌入xxx,预测的方向边界框获得为:([x^,y^,w^,h^],θ^)=σ(FFNbox(x),FFNangle(x))([\hat{x}, \hat{y}, \hat{w}, \hat{h}], \hat{\theta}) = \sigma(FFN_{box}(x), FFN_{angle}(x))([x^,y^,w^,h^],θ^)=σ(FFNbox(x),FFNangle(x)),(1) 其中σ(⋅)\sigma(\cdot)σ(⋅)表示sigmoid激活函数。
迭代角度细化 。类似于Deformable-DETR[28],我们在解码器层之间逐步细化预测的角度θ^\hat{\theta}θ^。给定先前角度预测θ^p\hat{\theta}_pθ^p,回归角度δθ^\delta\hat{\theta}δθ^和le135格式,实际角度θr\theta_rθr计算为:θr=(σ(σ−1(θ^p)+δθ^)−14)×π\theta_r=(\sigma(\sigma^{-1}(\hat{\theta}_p)+\delta\hat{\theta})-\frac{1}{4}) \times \piθr=(σ(σ−1(θ^p)+δθ^)−41)×π。
优化目标 。我们采用与原始方法类似的优化目标,对五维方向边界框参数(x^,y^,w^,h^,θ^)(\hat{x}, \hat{y}, \hat{w}, \hat{h}, \hat{\theta})(x^,y^,w^,h^,θ^)使用L1损失,用rIoU损失替换标准IoU损失,以鼓励准确回归方向边界框。
5 实验
5.1 实验设置
我们在MMOT数据集上使用两种输入模态进行广泛实验:RGB和MSI。对于基于RGB的评估,我们通过从MSI立方体中选择波段5、3和2合成伪RGB图像,这些波段大致对应于RGB光谱。对于基于MSI的评估,使用所有八个光谱通道。所有模型在基于MSI的实验中都结合所提出的光谱3D-Stem,以进行有效的多光谱特征提取。对于RGB和MSI设置,所有模型都使用第4.2节和第4.3节详述的方向感知策略,适应支持旋转边界框。其他超参数在附录中详述。

为全面评估在MMOT上评估的跟踪算法,我们遵循MOT基准[12, 13],使用CLEAR度量[29]、IDF1[30]和HOTA[31]。考虑到我们数据集的多类别性质,我们采用两种类别感知聚合方法:类别平均评估和检测平均评估。
5.2 实验结果和分析
基于MSI的整体性能。所有方法都在全面和公平的条件下进行评估,详细结果如表4所示。在所有评估的跟踪器中,BoT-SORT实现了最佳整体性能,达到类别平均度量53.6 HOTA、46.2 MOTA和61.0 IDF1,以及检测平均度量60.7 HOTA、59.4 MOTA和69.4 IDF1。这种优越性能很大程度上得益于YOLOv11生成的高质量检测提案和BoT-SORT中的鲁棒光流模块,该模块有效考虑了相机运动。
同样受益于YOLOv11检测,MOTRv2在所有模型中排名第二,达到类别平均度量49.2 HOTA、43.1 MOTA和57.3 IDF1,以及检测平均度量54.5 HOTA、50.9 MOTA和64.6 IDF1。值得注意的是,MeMOTR实现了最高的检测平均AssA 70.9,显著超过其他方法。这突显了其在处理多帧方面的有效性,强调了其在复杂跟踪场景中进行多帧关联的先进能力。
多光谱线索的优势 。为进一步量化多光谱输入的优势(超出整体性能),我们在RGB和MSI域中比较相同跟踪算法在不同超类上的表现。如表4所示,所有评估模型在利用多光谱图像时,在超类平均HOTA分数上都表现出一致的提升,突显了光谱线索的有效性。性能改进在HUMAN类别中尤为突出,该类别具有众多小尺寸、低纹理和密集分布的实例。具体来说,MOTR在HOTA上提高了+7.0,MOTRv2+7.0,MeMOTR+7.3。这些结果强调了光谱线索在空间分辨率退化的挑战条件下增强可区分性的价值。

另一方面,图6通过检测热图和跟踪嵌入直观地展示了多光谱输入带来的优势。在上排(左面板),MSI输入产生更清晰、更聚焦的热图,精确定位真实目标,而基于RGB的响应常常因背景杂乱而扩散或抑制。此外,在底排,MSI有效抑制了视觉上相似的干扰物或杂乱区域的错误激活,这些在RGB域中仍然显著。对于跟踪嵌入(右面板),我们通过降维可视化身份嵌入,其中每种颜色和标记表示不同ID。与RGB相比,MSI输入产生更紧凑、明显分离的簇,反映了改进的特征可区分性和减少的身份歧义。总体而言,这些可视化突显了光谱线索如何在复杂空中条件下为检测和关联提供有价值的补充信息。

RGB和MSI输入的定性比较 。如图7所示,多光谱输入在视觉上具有挑战性的条件下带来改进的跟踪性能。在上排,使用RGB输入的BoT-SORT(黄色框)在密集人群场景中对自行车目标表现出多个ID切换和漏检。在底排,使用MSI输入的MOTRv2(青色框)比其RGB对应物(粉色框)表现出更稳定的身份关联和更好的召回率,特别是在跟踪多个小尺寸、低分辨率的行人实例时。尽管两种模型在极小目标下都无法实现完美跟踪,但MSI版本检测并保持了显著更多的正确轨迹,这得益于人类目标的光谱可分离性。这些定性观察并非孤立案例,而是在整个数据集中观察到的代表性模式。它们证明多光谱输入有效缓解了身份切换,减少了错误检测,并在具有挑战性的条件下增强了整体跟踪鲁棒性。

光谱3D-Stem分析 。我们进一步研究所提出的光谱3D-Stem的贡献,将其替换为简单的2D-stem基线。如表5所示,光谱3D-Stem在所有评估模型中一致提高了类别平均跟踪性能。

在基于查询的跟踪框架中,提升最为显著,MOTR的HOTA增加+3.1,MeMOTR+3.8。这些改进证明了光谱3D-Stem有效捕获波段间相关性和细粒度光谱-空间上下文的能力。此外,它与预训练RGB权重的兼容性促进了稳定优化和更快的微调收敛。总的来说,这些结果确认光谱3D-Stem为多光谱学习提供了一种高效且原理性的架构解决方案,在具有挑战性的跟踪场景下产生更丰富的特征表示和更稳健的性能。
6 结论
我们介绍了MMOT,首个具有方向边界框的大规模无人机多光谱MOT数据集,包含125个视频和488.8K个高质量OBB标注,涵盖八个目标类别。为充分利用这一设置,我们提出了一种统一的适应方案,集成了光谱3D-Stem和方向感知跟踪模块。在八个代表性MOT模型上进行的广泛实验表明,多光谱输入带来了一致的性能提升,特别是对于小尺寸和拥挤目标。所有数据和代码均已发布,以支持进一步研究。
局限性。标注高质量OBB需要大量手动工作。未来工作将探索可扩展的标注和无监督学习方法。