【多模态目标检测】【AAAI 2025】FD2-Net

FD2-Net： Frequency-Driven Feature Decomposition Network for Infrared-Visible Object Detection

FD2-Net：基于频率驱动的特征分解网络用于红外-可见光目标检测

0.论文摘要

红外-可见光目标检测（IVOD）旨在利用红外和可见光图像中的互补信息，从而提升检测器在复杂环境中的性能。然而，现有方法往往忽略了互补信息的频率特性，例如可见光图像中丰富的高频细节和红外图像中有价值的低频热信息，从而限制了检测性能。为了解决这一问题，我们提出了一种新颖的频率驱动特征分解网络，称为FD2-Net，它能够有效捕捉跨模态视觉空间中互补信息的独特频率表示。具体而言，我们提出了一种特征分解编码器，其中高频单元（HFU）利用离散余弦变换来捕捉代表性的高频特征，而低频单元（LFU）则采用动态感受野来建模不同对象的多尺度上下文。接下来，我们采用一种无参数的互补强度策略，通过无缝的跨频率重耦合来增强多模态特征。此外，我们创新性地设计了一种多模态重建机制，能够恢复特征提取过程中丢失的图像细节，进一步利用红外和可见光图像中的互补信息来提升整体表示能力。大量实验表明，FD2-Net在各种IVOD基准测试中均优于当前最先进的（SOTA）模型，即在LLVIP（96.2% mAP）、FLIR（82.9% mAP）和M3FD（83.5% mAP）上均取得了优异的表现。

1.引言

目标检测是计算机视觉中的一个基础课题，旨在定位和识别图像或视频中的各种物体。它在自动驾驶、监控和遥感等领域有广泛的应用（Fu等，2023b；Li等，2023b）。然而，在雨、雾、云和光照不足等恶劣条件下，可见光目标检测面临重大挑战，这主要归因于RGB传感器的固有局限性。因此，替代的视觉传感器，特别是红外相机，越来越多地被用于补充RGB相机以克服这些困难，从而引发了红外-可见光目标检测（IVOD）领域的广泛研究兴趣。

然而，当前的IVOD方法仍存在三个弱点。弱点1：它们往往忽视了红外和可见光图像中物体特征的频率特性。红外成像主要捕捉低频热辐射，而可见光成像则强调高频细节。现有的主流架构（Li等，2023a；Zhao等，2023c）通常忽略了这种内在特性，并将跨模态信息嵌入到统一的特征空间中，导致无法提取模态特定的特征。弱点2：由于采用固定的感受野，这些方法仅提取局部信息，难以适应红外和可见光图像中固有的位置偏差。此外，使用小核的模型无法有效捕捉长距离信息，而周围环境对于物体大小、形状等特征提供了重要线索（Li等，2024）。弱点3：近期的IVOD方法通常采用下采样操作来减少视觉噪声并降低计算开销，但这可能导致物体信息的丢失。这种特征表示的退化显著影响了检测头的定位和分类能力，最终损害了检测性能。我们的研究探索了一种更合理的范式，以应对IVOD任务中跨模态特征提取的挑战。基于上述分析，我们提出了三个关键对策（CM）：

CM 1：我们从频率的角度重新审视特征提取过程。可见光图像提供了丰富的高频信息，如边缘和纹理，而红外图像则提供了有价值的低频热辐射信息。如图1（I）所示，传统方法仅依赖于冗余的跨模态相似线索，导致关键互补特征的丢失。相比之下，通过限制特征提取的频率空间，我们可以以更可控和可解释的方式从红外和可见光图像中捕捉到具有区分性的互补信息。如图1（II）所示，自适应频率解耦有助于在红外和可见光图像中保留更具代表性的低频和高频信息。

图1：展示了我们的FD2Net与现有IVOD方法之间的差异。我们的算法采用频率解耦技术，将红外和可见光图像中的高频和低频信息分离，从而有效利用多模态互补特征，提取更具区分性和鲁棒性的特征。

CM 2：从模型设计的角度来看，较大的卷积核有助于捕捉更广泛的场景上下文，从而减轻红外与可见光图像之间的几何偏差。然而，使用大核卷积可能会引入大量背景噪声，并忽略感受野内的细粒度细节，这对小目标的精确检测是不利的。因此，我们并行排列了多个不同大小的深度可分离扩张卷积，以提取不同感受野下的多粒度纹理特征，从而完成红外与可见光目标检测任务。

CM 3：为了应对多次下采样导致的信息丢失问题，许多现有方法通常采用生成式方法，如图像超分辨率，以缓解这一问题。然而，这些方法不仅需要构建高分辨率和低分辨率样本对，其生成过程还常常引入虚假伪影。相反，我们在IVOD框架中集成了一种简单而有效的多模态重建机制，利用红外和可见光模态的互补信息，恢复在特征提取过程中丢失的结构和纹理细节。

在本文中，我们为红外与可见光图像融合任务设计了一种新颖的范式，即频率驱动的特征分解网络（FD2-Net）。该网络通过解耦红外与可见光图像的频率信息，高效提取代表性特征，并利用一种模态的主导频率特性来增强另一种模态的互补特征。具体而言，我们引入了一种特征分解编码器，该编码器包含三个主要部分：高频单元（HFU）、低频单元（LFU）和无参数互补强度策略（CSS）。高频单元执行离散余弦变换，随后通过一个轻量级模块从多个高频分量中学习空间注意力掩码，从而突出最具代表性的高频特征。低频单元采用多尺度卷积核来捕捉各种物体的低频结构及其上下文信息，有效建模物体与其周围环境之间的关系。随后，CSS利用一种模态的优势来实现另一种模态的互补增强。此外，我们开发了一种融合特征级互补掩码的交叉重建单元（CRU）。CRU通过细粒度和粗粒度的跨模态交互，进一步从红外和可见光特征中学习互补信息，重建多模态图像。我们的贡献可以总结如下：

• 我们提出了一种新的红外与可见光目标检测（IVOD）范式，称为 F D 2 N e t FD^2Net FD2Net，旨在通过有效提取红外和可见光图像中的互补特征来提高检测性能。

• 我们设计了一个高频单元（HFU）和一个低频单元（LFU），以有效捕捉红外和可见光图像中的判别性频率信息。同时，开发了一种互补优势策略，通过无缝的跨频率重耦合来增强多模态特征。

• 我们引入了一个跨重建单元（CRU），以整合跨模态的互补信息，从而进一步增强特征表示。

• 大量的定性和定量实验验证了我们 F D 2 N e t FD^2Net FD2Net的有效性，在LLVIP（Jia等，2021）上达到了96.2%的准确率，在FLIR（Razakarivony和Jurie，2016）上达到了82.9%，在M3FD（Razakarivony和Jurie，2016）上达到了83.5%。

2.相关工作

通用目标检测

通用目标检测器大致可分为两阶段检测器和一阶段检测器。Faster R-CNN（Ren等，2015）是经典的两阶段检测器，由区域提议网络（RPN）、感兴趣区域（RoI）池化和检测头组成。RPN基于骨干网络提取的特征生成提议区域。提取的图像特征和生成的提议区域被输入到RoI池化操作中，以提取提议特征。最后，提议特征通过检测头进行分类和回归。为了生成更好的区域提议，研究者们探索了多种方法来提升性能，包括架构设计（Cai和Vasconcelos，2018）、锚框优化（Jiang等，2018）和多尺度训练（Singh、Najibi和Davis，2018）。然而，两阶段方法需要对大量提议进行筛选，导致显著的时间和计算开销。相比之下，一阶段检测框架直接从密集采样的网格中预测边界框和类别，从而实现更快的推理速度。YOLOv1（Redmon等，2016）是首个实现实时目标检测的一阶段目标检测器。经过多年的持续发展，YOLO系列检测器已超越其他一阶段目标检测器（Liu等，2016；Lin等，2017），成为实时目标检测的代名词。在本文中，选择基于YOLO的架构作为检测器，以合理平衡速度和精度。

红外-可见光目标检测

红外-可见光融合能够互补地捕捉更丰富的目标信息，从而产生更稳定的检测结果。IVOD检测器的主要关注点一直在于探索改进的融合技术，为此提出了多种变体框架。TINet（Zhang等，2023d）通过强调红外和可见光图像之间的差异，增强了互补信息的提取。AR-CNN（Zhang等，2019）指出可见光图像和红外图像在空间维度上存在不对齐问题。为了对齐两种模态的区域特征，它提出了一个区域特征对齐模块以提升检测性能。此外，DMAF（Zhou、Chen和Cao，2020）设计了一个光照感知的特征对齐模块，根据光照条件选择特征，并自适应地跨模态对齐特征。为了有效捕捉红外-可见光图像的互补特征，APWNet（Zhang等，2023c）引入了图像融合损失来增强YOLOv5（Jocher，2020）的性能。SuperYOLO（Zhang等，2023a）添加了图像超分辨率分支，以增强骨干网络的特征提取能力。LRAF-Net（Fu等，2023b）通过融合可见光和红外特征的长程依赖关系，提升了检测性能。DFANet（Zhang等，2023b）引入了一个对抗性特征提取和差异模块，以提取具有独特信息的红外和可见光差异特征。

在本文中，我们提出了一种频率驱动的特征分解网络，能够分别从红外图像和可见光图像中高效提取具有判别性的互补信息。这些提取的信息随后被用于增强特征表示，从而提升检测性能。

3.方法

总体框架

如图2所示，我们的FD2-Net包含三个模块：1）特征分解编码器。受频谱启发，该模块引入了一种双分支架构，通过特征分解和融合有效提取有价值的高频和低频特征。随后，通过互补优势策略，重组代表性频率特征以提升整体表示能力。2）多模态重建机制。为了增强特征学习，对编码器最后一层的特征应用非对称交叉掩码策略，迫使每种模态从互补模态中获取有用信息。然后利用两个交叉重建单元，通过红外和可见光图像的互补特征来恢复多模态图像。重建过程在像素级别上受均方误差约束。3）多尺度检测头。该模块构建了一个特征金字塔网络（FPN），利用编码器各阶段提取的多尺度特征。在FPN的最高分辨率层，集成了重建的多模态特征以进一步增强检测能力。最后，参考YOLOv5（Jocher 2020），配置了三个不同尺度的检测头，以准确检测目标。

图2：我们的FD2-Net的架构（上排）和核心组件（下排）。它包含三个部分：（1）特征分解编码器，能够有效提取多模态视觉空间中的高/低频特征。（2）多模态重建机制，通过多模态图像的重建进一步学习每种模态的区分性和互补性特征，以增强特征表示。（3）多尺度检测头，利用来自（1）和（2）的视觉特征完成目标分类和定位。

特征分解编码器

形式上，令 I ∈ R H × W I ∈ \mathbb{R}^{H×W} I∈RH×W 和 V ∈ R 3 × H × W V ∈ \mathbb{R}^{3×H×W} V∈R3×H×W 分别表示输入的红外图像和可见光图像，其中 H × W H × W H×W 表示空间分辨率。首先，使用一个 6 × 6 6 × 6 6×6 的 CBR 块来降低分辨率并提取浅层多模态视觉特征 { X I S , X V S } ∈ R c × h × w \{X^S_I , X^S_V \} ∈ \mathbb{R}^{c×h×w} {XIS,XVS}∈Rc×h×w。然后，我们首先将 { X I S , X V S } \{X^S_I , X^S_V \} {XIS,XVS} 按比例 α α α 分别拆分为两个部分。一部分预期表示高频成分，记为 Φ H = { X I H , X V H } ∈ R α c × h × w Φ^H = \{X^H_I , X^H_V \} ∈ \mathbb{R}^{αc×h×w} ΦH={XIH,XVH}∈Rαc×h×w，用于捕捉边缘和纹理等空间细节。另一部分 Φ L = { X I L , X V L } ∈ R ( 1 − α ) c × h × w Φ^L = \{X^L_I , X^L _V \} ∈ \mathbb{R}^{(1−α)c×h×w} ΦL={XIL,XVL}∈R(1−α)c×h×w 则预期学习低频内容，如上下文和结构信息。

高频特征注意力

我们的目标是分别从红外图像和可见光图像中有效提取高频成分。为此，我们引入了高频单元，该单元能够过滤出高频信息，并将模型的注意力引导到更有价值的信息上。离散余弦变换（DCT）在图像压缩中表现出色，特别是在增强图像细节和纹理的同时消除噪声。基于此，我们将DCT引入到IVOD中。这种变换引导卷积提取多样化的高频空间特征，并有效抑制红外-可见光图像中的高斯噪声和热噪声等噪声。

离散余弦变换（DCT）

对于一幅图像 x ∈ R H × W x ∈ \mathbb{R}^{H×W} x∈RH×W，其中 H H H 和 W W W 分别是 x x x 的高度和宽度，公式 (1) 提供了标准二维 (2D) DCT 的数学定义：

其中 f ∈ R H × W f ∈ \mathbb{R}^{H×W} f∈RH×W 是二维DCT频率谱， B B B 是二维DCT的基函数， h ∈ { 0 , H − 1 } h ∈ \{0, H − 1\} h∈{0,H−1} 且 w ∈ { 0 , W − 1 } w ∈ \{0, W − 1\} w∈{0,W−1}，cos(·) 表示余弦函数。为简化表示，省略了公式(1)中的常数归一化因子。

高频单元

为了自适应地调节对不同频率成分的强调，以增强空间信息的辨别能力，我们利用二维DCT作为选择性滤波机制。具体而言，高频特征图 Φ H Φ^H ΦH沿通道维度被划分为 n n n个片段。每个组 Φ g H Φ_g^H ΦgH（其中 g ∈ { 0 , n − 1 } g ∈ \{0, n − 1\} g∈{0,n−1}）保持 Φ H Φ^H ΦH的空间维度，但仅具有 1 / n 1/n 1/n的通道长度。然后，为每个片段分配一个特定的二维DCT频率成分，记为 B u g , v g B_{u_g,v_g} Bug,vg，随后将这些片段拼接起来，以获得模态特定的高频特征，记为：

其中 $u g , v g$ $u_g, v_g$ $ug,vg$ 表示对应于 Φ g H Φ_g^H ΦgH 的二维频率索引。 $\cdot , \cdot$ $\cdot, \cdot$ $\cdot,\cdot$ 表示拼接操作。这里， g g g 作为频率分量的控制参数，较大的 g g g 值使得同一卷积层中的通道能够捕捉多频特征，从而增强特征表示能力。

接下来，我们应用空间注意力机制，自适应地学习一个空间掩码，以在训练过程中动态调制不同的频率分量。从数学上讲，这一实例化可以表述为：

其中， σ σ σ 表示 sigmoid 函数。AvgPool(·) 和 MaxPool(·) 分别是平均池化和最大池化操作。 F 2 → 1 \mathcal{F}^{2→1} F2→1 是一个 7×7 的卷积层，用于将特征（具有 2 个通道）转换为一个空间注意力图，这有助于不同空间描述符之间的信息交互。

HFU模块的最终输出是输入特征 Φ H Φ^H ΦH与 S A H SA^H SAH的逐元素乘积，如下所示：

我们相信，使用更复杂的注意力架构，例如（Behera 等人，2021；Bao 等人，2024），具有实现更高改进的潜力。

低频上下文精炼

为了有效捕捉多尺度下的低频信息，我们通过一组具有不同卷积核大小和膨胀率的并行深度卷积（DWC）构建了多粒度卷积。对于第 i i i个DWC，卷积核大小 k i k_i ki和膨胀率 d i d_i di的扩展是灵活的，唯一的约束条件是：

然而，这种多分支结构不可避免地增加了计算成本，从而在实际部署中延长了推理时间。参考文献（Ding et al. 2019, 2021）指出，多个并行的卷积块可以无缝整合为单个卷积层进行推理，从而优化计算效率。通过利用这种等效变换，我们将多个小核分支合并为一个统一的大核卷积层，如图2所示。这种方法不仅增强了单层内多尺度特征的提取能力，还保持了快速的推理能力。遵循ConvNeXt（Liu et al. 2022b）和RepLKNet（Ding et al. 2022）的设置，我们设定RF = 7，卷积核大小为 $7 , 3 , 3 , 3$ $7, 3, 3, 3$ $7,3,3,3$ ，膨胀率为 $1 , 1 , 2 , 3$ $1, 1, 2, 3$ $1,1,2,3$ 。需要注意的是，我们的LFU使用了膨胀卷积，从而避免了提取过于密集的特征表示。

为了减少信息冗余并提高特征多样性，我们采用了一种通道混合策略，该策略同时执行通道间通信和空间聚合。首先，全局平均池化（GAP）操作从低频空间特征中收集通道统计信息。这些特征随后通过两个连续的1×1卷积层进行压缩和恢复，从而降低特征相似性。接着，通过sigmoid函数生成通道权重，对多尺度空间特征 Φ L Φ^L ΦL进行加权处理以进行精炼。该过程可概括如下：

其中 d d d 被设为 ( 1 − α ) C / 4 (1 − α)C/4 (1−α)C/4。

互补优势策略

该策略的功能是重新耦合互补特征，并实现高效的跨频通信。我们提出了一种无需参数的方式，将跨模态图像中的低/高频特征添加到另一特征中，其中：

对于每个模态内的频率特征，我们将两者拼接并使用一个3×3的卷积层 F ( ⋅ ) F(·) F(⋅)来获得增强的模态共享特征。最终输出公式如下：

图2详细展示了LFU、HFU和融合策略，通过协同捕捉高/低频空间信息，直观地演示了它们的工作原理。

多模态重建机制

如上所述，特征分解编码器专注于显式提取有价值的频率信息。为了充分利用互补信息，我们进一步将多模态重建机制集成到FD2-Net中。该机制旨在学习每种模态的判别性和互补性特征，同时增强整体表示能力。如图2所示，该机制包含两个组件：特征级交叉掩码和交叉重建单元（CRU）。

特征级互补掩码

为了更好地利用多模态信息，避免网络始终从单一图像中学习，我们设计了一种高效的特征增强策略来训练FD2-Net。如图2所示，我们对局部信息进行非对称掩码处理，其表示如下：

其中， M I M_I MI和 M V M_V MV分别代表红外掩码和可见光掩码。 M a l l M_{all} Mall表示总的未可见区域，占特征图的30%。这种设计使得网络只能从掩码区域对应相反模态的位置获取有效信息。

多模态图像重建

如引言所述，特征提取导致的信息丢失使得检测器在定位和识别物体时面临困难。为了解决这一挑战，我们引入了交叉重建单元（CRU），通过细粒度的局部和粗粒度的全局交互来学习互补特征。需要注意的是，CRU是一个通用的图像重建网络，我们仅以可见光图像为例来解释CRU的工作原理。该过程可以表示为如下（为简洁起见，省略了修正线性单元（ReLU））：

其中， C A ( ⋅ ) CA(·) CA(⋅)表示交叉注意力层。 F S \mathcal{F}_S FS和 F E \mathcal{F}_E FE是特征压缩和激励操作，与(Hu, Shen, and Sun 2018)中的定义相同。对于红外图像和可见光图像，CRU的输出分别为 f i f_i fi和 f v f_v fv。

训练损失

总损失函数由图像重建损失 L r c \mathcal{L}{rc} Lrc和检测损失 L d e t \mathcal{L}{det} Ldet组成。重建损失通过计算原始图像与重建图像之间的均方误差（MSE）损失来获得，其公式如下：

其中， f i f_i fi和 f v f_v fv 分别是重建的红外特征和可见光特征， I I I 和 V V V 分别表示输入的红外图像和可见光图像。检测损失与之前的算法一致，包括分类损失 L c l s \mathcal{L}{cls} Lcls、定位损失 L b o x \mathcal{L}{box} Lbox 和置信度损失 L o b j \mathcal{L}_{obj} Lobj：

总体损失函数定义如下：

λ 1 λ_1 λ1和 λ 2 λ_2 λ2是用于在训练过程中平衡两种损失的超参数。

4.实验

实验设置

数据集

所提出的模型通过三个IVOD基准数据集与SOTA方法进行了评估：(1) LLVIP数据集（Jia等，2021）是一个在低光条件下专门收集的大规模行人数据集，主要展示极端黑暗场景。它确保了所有红外和可见光图像对在空间和时间上的精确对齐，专注于行人检测。(2) FLIR数据集提供了一个极具挑战性的多光谱目标检测基准，涵盖了白天和夜晚场景。在本研究中，我们使用了"对齐"版本（Zhang等，2020）。它包含5,142对精确对齐的红外-可见光图像对，其中4,129对用于训练，1,013对用于测试。该数据集包含三个主要目标类别：人、汽车和自行车。(3) M3FD数据集（Liu等，2022a）包含4,200对RGB和热成像图像。它涵盖了六类目标：人、汽车、公交车、摩托车、灯和卡车。根据先前的工作（Zhao等，2023b），我们采用随机分割方法来划分训练集和验证集。具体而言，80%的图像分配给训练集，其余图像分配给验证集。

实现细节

为确保公平性，我们采用了与其他主流方法（Fu et al. 2023a）相同的数据集处理方式。FD2Net基于当前最先进的检测器YOLOv5（Jocher 2020）构建。在评估方面，我们报告了F1分数、精确率、召回率和平均精度，与先前的研究保持一致。参数初始化采用Xavier初始化方法（Glorot and Bengio 2010），模型使用SGD（Robbins and Monro 1951）进行训练，共训练150个周期，初始学习率为0.01，权重衰减为 1 0 − 4 10^{−4} 10−4，动量为0.9。

主要结果

我们将提出的 F D 2 N e t FD^2Net FD2Net与多种基线方法和最新技术（SOTA）进行了比较，包括SDNet（Zhang和Ma，2021）、TarDAL（Liu等，2022a）、DensFuse（Li和Wu，2018）、U2Fusion（Xu等，2020）、CDDFuse（Zhao等，2023b）、SegMiF（Liu等，2023）、DDFM（Zhao等，2023c）、MetaF（Zhao等，2023a）、LRRNet（Li等，2023a）、CSSA（Cao等，2023）以及TFDet（Zhang等，2024）。这些方法均基于YOLOv5检测器构建，以评估其检测性能。

LLVIP上的对比结果

表1中的结果表明，我们的方法有效地融合了红外和可见光图像中的相似和互补特征，显著增强了网络的表征能力。与单模态方法相比，FD2Net在红外和可见光图像上的表现均优于单一模态方法，分别提升了8.6%和7.7%。此外，与其他SOTA网络相比，FD2Net始终表现更优，mAP50提升了1.4%-6.8%。这些结果表明，我们提出的方法显著提升了IVOD任务的性能。

表1：FD2Net与SOTA方法在LLVIP数据集上的性能对比。最佳和第二佳性能分别以粗体和下划线标出。

FLIR对比结果

如表2所示，FD2Net展现了卓越的性能，在mAP50和mAP75上分别以82.9%和41.9%的成绩创下了新的SOTA基准。具体而言，我们的方法在mAP50上分别比CDDFuse和SegMiF高出+2.1%和+1.4%。当阈值提高到0.75时，其他方法的漏检率比FD2Net上升得更为显著，这表明我们的方法在检测精度上具有优势。例如，它在mAP75上达到了42.5%，比之前的最佳模型LRRNet提高了1.5%。

表2：FD2Net与SOTA方法在FLIR数据集上的性能对比。最佳和次佳性能分别以粗体和下划线标出。

M3FD上的对比结果

在M3FD数据集上的对比结果总结于表3中。我们提出的方法实现了83.5%的mAP50，创下了新的记录。此外，我们还展示了每个类别的检测准确率。值得注意的是，在"行人"和"摩托车"类别中，FD2Net分别比之前的最佳方法提高了1.3%和2.4%。这表明我们的方法在检测弱光和小目标方面具有更优越的能力。

表3：FD2Net与SOTA方法在M3FD数据集上的对比。最佳和次佳性能分别用加粗和下划线标出。

视觉对比

定性结果如图3所示。绿色框表示检测结果，而红色虚线框标记了漏检目标（假阴性）。显然，先前方法的预测存在漏检问题，尤其是对于图像中的小目标和被遮挡目标。FD2Net有效地捕捉了与检测目标相关的鲁棒共享信息和判别性特定信息，从而在各种具有挑战性的场景中表现出色。

图3：FD2Net与10种SOTA方法的视觉对比。绿色框为检测结果，红色虚线框标记了漏检目标（假阴性）。

消融实验

在本节中，我们展示了在LLVIP数据集上的消融研究结果，以评估 F D 2 N e t FD^2Net FD2Net中不同组件的相对有效性。

F D 2 N e t FD^2Net FD2Net架构

与基线（实验I）相比，引入HFU（实验II）和LFU（实验III）进行增强特征提取，分别使mAP50提高了1.5%和2.3%。将多模态图像重建策略CRU（实验IV）整合到 F D 2 N e t FD^2Net FD2Net中，使mAP50提升了0.9%。值得注意的是，mAP75显著提高了3.3%，表明通过图像重建可以显著增强物体位置感知能力。通过采用非对称特征掩码，可以进一步增强特征表示能力，使AP50和AP75分别提高了2.6%和1.8%。这些消融实验结果表明了所提出方法中主要组件的有效性。

HFU和LFU的效果

我们的特征分解编码器（FDE）包含两个组件：高频注意力（HFU）和低频细化（LFU）。为了评估它们的有效性，我们将YOLOv5n中的C2f模块替换为HFU或LFU。如表5所示，单独使用HFU（YOLOv5n+H）或LFU（YOLOv5n+L）分别导致性能下降3.2%和2.8%，这表明单独使用任一组件都无法有效捕捉红外-可见光图像的互补特征。我们进一步探索了三种集成策略：顺序高频到低频（H+L）、顺序低频到高频（L+H）以及并行（H&L）。并行组合取得了最佳性能，显著提高了mAP50至94.7%，同时减少了参数和FLOPs。因此，我们采用并行（H&L）设计作为FDE，以最大化模型性能。

表5：LLVIP数据集上不同LFU与HFU组合方法的实验结果。

特征图可视化

为了探究所提出的FD2Net的特征表示能力，我们可视化了原始YOLOv5和FD2Net在第二阶段的特征图。如图4所示，与原始YOLOv5相比，FD2Net生成的特征模式显著丰富。这种方法不仅减少了冗余特征，还增强并多样化地表达了代表性特征。

图4：左图：原始YOLOv5n的特征，右图：提出的FD2Net的特征。

5.结论

在本文中，我们提出了一种专门为红外-可见光目标检测任务设计的频率驱动特征分解网络（FD2Net）。该网络能够高效地建模高频和低频特征，从而促进有价值互补信息的提取。此外，借助多模态重建机制，多模态图像中的互补信息得到了更有效的利用。大量的定性和定量实验表明，所提出的网络在竞争性红外-可见光目标检测基准上达到了最先进的性能。