SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery
前言
在遥感图像 (RSI) 中,准确且及时地检测包含几十个像素的多尺度小物体仍然充满挑战。现有的大多数解决方案主要设计复杂的深度神经网络,以从背景中分离出物体并学习强特征表示,但这通常会导致高计算负担。
本文提出了一种名为 SuperYOLO 的 RSI 目标检测方法,具有准确且快速的特点。该方法通过融合多模态数据 和辅助超分辨率 (SR) 学习,在多尺度目标的高分辨率 (HR) 检测中兼顾检测精度和计算成本。
(1)首先,我们利用对称的紧凑多模态融合 (MF) 从各种数据中提取补充信息,以提升 RSI 中小物体的检测效果。
(2)此外,我们设计了一个简单灵活的 SR 分支,来学习 HR 特征表示,以便在低分辨率 (LR) 输入的情况下区分出广阔背景中的小物体 ,从而进一步提升检测精度。
(3)此外,为了避免引入额外计算量,在推理阶段将丢弃 SR 分支,并通过 LR 输入减少网络模型的计算负担。
实验结果表明,在广泛使用的 VEDAI RS 数据集上,SuperYOLO 的准确率达到 75.09%(以 mAP50 计算),比 SOTA 大型模型(如 YOLOv5l、YOLOv5x 和专为 RS 设计的 YOLOrs)高出 10% 以上。同时,SuperYOLO 的参数量和 GFLOPs 分别比 YOLOv5x 低约 18 倍和 3.8 倍。相比当前的先进模型,我们提出的模型在精度和速度之间展现了良好的平衡。
代码将会在 GitHub 开源。
介绍
目标检测在包括计算机辅助诊断和自动驾驶在内的多个领域中发挥着重要作用。过去几十年中,已经提出、更新和优化了许多基于深度神经网络 (DNN) 的优秀目标检测框架。DNN 基于的目标检测框架的显著精度提升得益于具有精确标注的大规模自然数据集的应用。
与自然场景相比,在遥感图像 (RSI) 中实现准确目标检测面临一些重要挑战。首先,标注样本数量相对较少,限制了 DNN 的训练,难以获得较高的检测精度。其次,RSI 中的物体尺寸通常较小,仅占据几十个像素,与复杂而广阔的背景相比显得微不足道。此外,这些物体的尺度多样且类别繁多。如图 1(a) 所示,物体(如汽车)在广阔区域中显得非常小;如图 1(b) 所示,物体的尺度变化较大,例如汽车的尺寸小于露营车的尺寸。
目前,大多数目标检测技术仅针对单一模态(如红绿蓝 (RGB) 和红外 (IR))进行设计和应用。因此,在目标检测方面,由于缺乏不同模态间的互补信息,这些技术在识别地表物体的能力上仍显不足。随着成像技术的发展,多模态采集的 RSI 变得可获取,为提高检测精度提供了机会。例如,如图 1 所示,融合两种不同的多模态(RGB 和 IR)可以有效提升 RSI 的检测精度。有时,一种模态的分辨率较低,这需要提升分辨率的技术来增强信息 。近来,超分辨率 (SR) 技术在遥感领域展示了巨大潜力。受益于卷积神经网络 (CNN) 的快速发展,遥感图像的分辨率达到了可以解析高纹理信息的水平。然而,由于 CNN 网络的高计算成本,SR 网络在实时实际任务中的应用已成为当前研究的热点。
本研究的动机 是提出一种适用于多模态遥感图像 (RSI) 的车载实时目标检测框架,以在不增加额外计算负担的情况下实现高检测精度和高推理速度 。受最近实时紧凑型神经网络模型进展的启发,我们选择小尺寸 YOLOv5s结构作为检测基线,以降低部署成本并促进模型的快速部署。
考虑到小物体的高分辨率 (HR) 保留需求,我们移除了基线 YOLOv5s 模型中的 Focus 模块,这不仅有利于小而密集的物体定位,还提升了检测性能。
考虑到不同模态的互补特性,我们提出了多模态融合 (MF) 方案,以改善 RSI 的检测性能。
我们评估了不同的融合方案(像素级和特征级),并选择了计算成本较低的像素级融合。
最后且最重要的是,我们开发了一个 SR 模块 ,以引导网络生成能够识别广阔背景中小物体的高分辨率 (HR) 特征,从而减少 RSI 中由背景污染物体引起的误报 。然而,直接使用 SR 解决方案会显著增加计算成本。因此,我们在训练过程中设置了辅助 SR 分支,并在推理阶段将其移除,从而在不增加计算成本的情况下实现 HR 空间信息的提取。
综上所述,本文做出以下贡献 :
(1)我们提出了一种计算友好的像素级融合方法,以对称紧凑的方式双向结合内部信息。与特征级融合相比,该方法在不牺牲精度的情况下有效降低了计算成本。
(2)我们首次将辅助 SR 分支引入多模态目标检测。我们的方法不仅在有限的检测性能上实现了突破,还为研究能够在低分辨率 (LR) 输入下区分广阔背景中小物体的优秀高分辨率 (HR) 特征表示提供了更灵活的途径。
(3)考虑到对高质量结果和低计算成本的需求,在推理阶段移除了作为辅助任务的 SR 模块,而没有引入额外的计算负担。SR 分支具有通用性和可扩展性,可以嵌入到现有的全卷积网络 (FCN) 框架中。
(4)所提出的 SuperYOLO 显著提升了目标检测的性能,在实时多模态目标检测中超过了当前最先进的检测器。与最先进的模型相比,我们提出的模型在精度与速度之间展现了良好的平衡。
相关工作
使用多模态数据进行物体检测
最近,多模态数据已广泛应用于许多实际应用场景,包括视觉问答、自动驾驶车辆、显著性检测和遥感分类。研究发现,结合多模态数据的内部信息可以有效传递互补特征,从而避免单一模态的信息被忽略。
在遥感图像 (RSI) 处理领域,存在多种模态(例如,RGB、合成孔径雷达 (SAR)、激光雷达 (LiDAR)、红外 (IR)、全色 (PAN) 和多光谱 (MS) 图像),这些模态来自不同的传感器,可以融合其互补特性以提升各种任务的性能。例如,额外的红外模态捕捉更长的热波长,以改善在恶劣天气条件下的检测。Manish 等人提出了一种用于多模态遥感成像的实时目标检测框架,其中扩展版本进行了中层融合并合并了来自多种模态的数据。尽管多传感器融合能够提高检测性能,如图 1 所示,但其低精度检测性能和待改善的计算速度难以满足实时检测任务的要求。
融合方法主要分为三种策略,即像素级融合、特征级融合和决策级融合方法。决策级融合方法在最后阶段融合检测结果,这可能会由于对不同多模态分支的重复计算而消耗大量计算资源。在遥感领域,主要采用特征级融合方法,通常采用多分支结构。多模态图像将输入到并行分支中,以提取不同模态的各自独立特征,然后通过一些操作(如注意力模块或简单连接)将这些特征结合起来。随着模态数量的增加,并行分支会导致重复计算,这在遥感的实时任务中并不友好。