【论文阅读 | arXiv 2025 | WaveMamba:面向RGB-红外目标检测的小波驱动Mamba融合方法】

论文阅读 | arXiv 2025 | WaveMamba:面向RGB-红外目标检测的小波驱动Mamba融合方法​​

  • [1&&2. 摘要&&引言](#1&&2. 摘要&&引言)
  • [3. 方法](#3. 方法)
    • [3.1. 预备知识](#3.1. 预备知识)
    • [3.2. WaveMamba](#3.2. WaveMamba)
    • [3.3. WaveMamba融合块(WMFB)](#3.3. WaveMamba融合块(WMFB))
      • [3.3.1. 低频Mamba融合块(LMFB)](#3.3.1. 低频Mamba融合块(LMFB))
      • [3.3.2. 高频增强策略(HFE)](#3.3.2. 高频增强策略(HFE))
    • [3.4. 改进的YOLOv8检测头](#3.4. 改进的YOLOv8检测头)
  • [4. 实验](#4. 实验)
    • [4.1. 实验设置](#4.1. 实验设置)
    • [4.2. 与 SOTA 结果的比较](#4.2. 与 SOTA 结果的比较)
    • [4.3. 可视化](#4.3. 可视化)
    • [4.4. 消融研究](#4.4. 消融研究)
  • [5. 结论与致谢](#5. 结论与致谢)
    • [5.1 结论 (Conclusion)](#5.1 结论 (Conclusion))
    • [5.2 主要贡献 (Main Contributions)](#5.2 主要贡献 (Main Contributions))

题目:WaveMamba: Wavelet-Driven Mamba Fusion for RGB-Infrared Object Detection

期刊:arXiv

论文:paper

代码:未开源

年份:2025

1&&2. 摘要&&引言

利用可见光(RGB)和红外(IR)图像的互补特性,对于提升目标检测性能具有显著潜力。

本文提出WaveMamba ,一种跨模态融合方法,它有效地整合了通过离散小波变换 (DWT)分解出的RGB和IR独特且互补的频率特征。同时提出了一种融合逆离散小波变换(IDWT)的改进检测头,以减少信息损失并生成最终的检测结果。

我们方法的核心是引入了WaveMamba融合块WMFB ),它促进了跨低/高频子带的全面融合。在WMFB内部,基于Mamba框架构建的低频Mamba融合块LMFB )首先通过通道交换进行初步的低频特征融合,随后利用先进的门控注意力机制进行深度融合以实现增强的整合。高频特征则采用绝对最大值融合策略进行增强

总之,本文的主要贡献如下:

● 我们提出了WaveMamba,它利用不同模态固有的优势频率特性来融合特征,促进充分的特征交互,并提升RGB-IR目标检测的性能。

WaveMamba融合块 高效整合了不同的频率信息,包括一个结合低频特征的LMFB 和一个无需增加计算复杂度即可捕捉细节的HFE策略改进的YOLOv8检测头利用IDWT生成最终检测结果。

● 在四个公共数据集上的大量实验表明,我们的方法在跨模态目标检测任务中实现了最先进的性能,平均mAP超过次优方法4.5%。

3. 方法

3.1. 预备知识

离散小波变换 (DWT)

Haar小波变换因其简单高效而成为一种标准的DWT。对于图像 I I I,一级变换使用低通滤波器 L = 1 2 [ 1 , 1 ] L=\frac{1}{\sqrt{2}}[1,1] L=2 1[1,1] 和高通滤波器 H = 1 2 [ 1 , − 1 ] H=\frac{1}{\sqrt{2}}[1,-1] H=2 1[1,−1] 进行深度卷积,然后进行下采样步骤,将分辨率降低2倍。扩展到二维涉及四个滤波器,我们将 (I) 的子带表示如下:

F L , F H = D W T ( I ) , ( 1 ) F_{L},F_{H}=DWT(I),\qquad(1) FL,FH=DWT(I),(1)

其中 D W T ( ⋅ ) DWT(\cdot) DWT(⋅) 表示Haar小波变换,子带 F L = { F L L } F_{L}=\{F_{LL}\} FL={FLL} 捕获低频信息, F H = { F L H , F H L , F H H } F_{H}=\{F_{LH}, F_{HL}, F_{HH}\} FH={FLH,FHL,FHH} 捕获高频细节和噪声。

2D选择性扫描 (SS2D)

在线性时不变系统中,状态空间模型(SSMs)通过状态变量处理一维输入信号,并使用常微分方程(ODEs)生成输出。Mamba[15]增强了这种建模方法,但其在视觉任务中的直接应用受到2D视觉数据与1D语言序列不匹配的限制。为了解决这个问题,[40]中引入的2D选择性扫描(SS2D)机制将图像块沿四个方向展开,创建独立的序列。每个特征序列使用选择性扫描状态空间序列模型(S6)[15]进行处理,然后聚合这些序列以重建2D特征图(图2e)。

3.2. WaveMamba

我们模型的架构如图2所示,包含:

以下是Figure 2图示说明的完整翻译,采用结构化呈现并严格嵌入原文图片标签:图2. 完整网络及子模块示意图
(a) WaveMamba整体架构

• 展示包含以下核心组件的端到端网络:
改进的双流特征提取骨干网 (通过DWT增强)
三级WaveMamba融合块 (WMFB)
改进的YOLOv8检测头 (通过IDWT增强)

• 箭头标明数据流向:RGB/IR输入 → DWT分解 → 跨模态融合 → IDWT重建 → 检测输出
(b) WMFB详细结构

• 揭示WaveMamba融合块的两大核心组件:
低频Mamba融合块 (LMFB) :处理跨模态低频特征
高频增强策略 (HFE) :优化高频细节选择
c) SFM模块结构

• 浅层融合模块实现流程:
通道交换 → VSS块特征精炼

• 箭头标注跨模态交互路径
(d) DFM模块结构

• 深层融合机制:

门控注意力控制信息流(红色高亮)

主/辅模态交替处理路径
(e) VSS块结构

• 核心操作流程:
LayerNorm → 线性投影 → SiLU激活 → SS2D处理 → 残差连接

  1. 双流特征提取骨干网(增强DWT)
  2. 三个WaveMamba融合块(WMFB)
  3. 改进的YOLOv8检测头(融合IDWT)

给定输入RGB图像 I R G B I_{RGB} IRGB 和红外图像 I I R I_{IR} IIR,模型流程如下:

  1. 提取局部特征:
    f R G B i 和 f I R i ( i ∈ { 1 , 2 } ) f_{RGB}^{i} \text{ 和 } f_{IR}^{i} \quad (i \in \{1,2\}) fRGBi 和 fIRi(i∈{1,2})
  2. 对第二层特征应用Haar小波变换:
    F L , R G B 2 , F H , R G B 2 = D W T ( f R G B 2 ) , F L , I R 2 , F H , I R 2 = D W T ( f I R 2 ) , ( 2 ) \begin{align*}& F_{L, RGB}^{2}, F_{H, RGB}^{2}=DWT\left(f_{RGB}^{2}\right),\\ & F_{L, IR}^{2}, F_{H, IR}^{2}=DWT\left(f_{IR}^{2}\right),\end{align*}\qquad(2) FL,RGB2,FH,RGB2=DWT(fRGB2),FL,IR2,FH,IR2=DWT(fIR2),(2)
  3. 通过三级WMFB实现多级融合(第三层和第五层)
  4. 改进的YOLOv8检测头使用IDWT生成最终检测结果

3.3. WaveMamba融合块(WMFB)

3.3.1. 低频Mamba融合块(LMFB)

浅层融合模块 (SFM)

  1. 通道交换操作:
    T L , RGB i , T L , IR i = CS ( F L , RGB i , F L , IR i ) , ( 3 ) T_{L,\text{ RGB}}^{i},T_{L,\text{ IR}}^{i}=\text{ CS}(F_{L,\text{ RGB}}^{i},F_{L,\text{ IR}}^{i}),\qquad(3) TL, RGBi,TL, IRi= CS(FL, RGBi,FL, IRi),(3)
  2. VSS块特征细化:
    F ~ L , RGB i = VSS ( T L , RGB i ) , F ~ L , IR i = VSS ( T L , IR i ) , ( 4 ) \tilde{F}{L,\text{ RGB}}^{i}=\text{ VSS}(T{L,\text{ RGB}}^{i}),\quad\tilde{F}{L,\text{ IR}}^{i}=\text{ VSS}(T{L,\text{ IR}}^{i}),\qquad(4) F~L, RGBi= VSS(TL, RGBi),F~L, IRi= VSS(TL, IRi),(4)

深层融合模块 (DFM)

  1. 门控注意力机制(图2d):

  2. 输出融合特征:
    F ^ L , RGB i , F ^ L , IR i = D F M ( F ~ L , RGB i , F ~ L , IR i ) , ( 5 ) \hat{F}^{i}{L,\text{RGB}},\hat{F}^{i}{L,\text{IR}}=DFM(\tilde{F}^{i}{L,\text{RGB}},\tilde{F}^{i}{L,\text{IR}}),\qquad(5) F^L,RGBi,F^L,IRi=DFM(F~L,RGBi,F~L,IRi),(5)

3.3.2. 高频增强策略(HFE)

绝对值最大化选择关键细节:
F H i = M a s k ( ∣ F H , R G B i ∣ − ∣ F H , I R i ∣ ) ⊙ F H , R G B i + M a s k ( ∣ F H , I R i ∣ − ∣ F H , R G B i ∣ ) ⊙ F H , I R i , ( 6 ) \begin{align*} F_{H}^{i}&=Mask(|F_{H,RGB}^{i}|-|F_{H,IR}^{i}|)\odot F_{H,RGB}^{i}\\ &\quad+Mask(|F_{H,IR}^{i}|-|F_{H,RGB}^{i}|)\odot F_{H,IR}^{i},\end{align*}\qquad(6) FHi=Mask(∣FH,RGBi∣−∣FH,IRi∣)⊙FH,RGBi+Mask(∣FH,IRi∣−∣FH,RGBi∣)⊙FH,IRi,(6)

其中 ⊙ \odot ⊙ 为逐元素乘, Mask ( x ) = 1 if x > 0 else 0 \text{Mask}(x)=1 \text{ if } x>0 \text{ else } 0 Mask(x)=1 if x>0 else 0

3.4. 改进的YOLOv8检测头

  1. IDWT上采样
    聚合融合低频特征 F L agg F_{L}^{\text{agg}} FLagg 后:
    F output = I D W T ( F L agg , F H fused ) F_{\text{output}} = IDWT(F_{L}^{\text{agg}}, F_{H}^{\text{fused}}) Foutput=IDWT(FLagg,FHfused)
  2. 检测流程
    • 高频特征直接输入检测分支
    • 其余结构与标准YOLOv8一致

好的,这是您提供的文档第四部分"Experiments"的中文翻译,并保持了原文的结构和图片标签的位置:

4. 实验

4.1. 实验设置

我们在六个数据集上评估我们的模型,使用 m A P 50 mAP_{50} mAP50 和 mAP 作为评估指标:主论文中的 M 3 M^{3} M3 FD[38]、DroneVehicle[53]、LLVIP[21]、FLIR-Aligned[87] 数据集,以及补充材料中的 VEIDA[46]、KAIST[20] 数据集。

此外,对于 FLIR-Aligned 数据集,我们还采用了精确率(precision)、召回率(recall)和 F1 分数作为评估指标。

我们的模型和训练框架基于 Ultralytics[60] 修改后的 YOLO 架构的双流框架。为了验证我们方法的普适性,我们使用三种标准骨干网络实现了我们的方法:ResNet50、YOLOv5 和 YOLOv8,遵循现有方法[48]。损失函数和训练流程与标准 YOLOv8 训练[60] 中使用的相同。更多细节可在补充材料中找到。

4.2. 与 SOTA 结果的比较

M 3 M^{3} M3 FD 数据集。 M 3 M^{3} M3 FD 是一个在极端天气条件下的多类目标检测数据集。在 M 3 M^{3} M3 FD 上的结果总结在表 1 中。

与现有的最先进方法相比,我们基于 YOLOv8 的方法取得了最高的性能,在 m A P 50 mAP_{50} mAP50 和 mAP 上分别提升了 5.5% 和 5.1%。同样,我们使用 ResNet50 和 YOLOv5 作为骨干网络的方法也优于使用相同骨干网络的其他方法。在不同类别的性能方面,我们使用不同骨干网络的方法在大多数情况下始终排名前三。具体来说,我们的方法在汽车(cars)、路灯(lamps)和行人(people)类别上分别比排名第四的方法高出 1.1 % 1.1\% 1.1%、 6.0 % 6.0\% 6.0% 和 8.5 % 8.5\% 8.5%。值得注意的是,即使没有针对稀有类别(如"Bus"、"Truck"、"Motorcycle")进行特殊设计,我们的方法在这些稀有类别上仍然取得了相似的性能。与单模态 YOLOv8l 模型相比,我们的融合模型实现了显著的性能提升,证明了我们的方法在整合红外(IR)和可见光(RGB)模态有益信息方面的有效性。由于我们的方法有效地利用了红外图像低频子带的全局结构信息和 RGB 图像高频子带的目标边缘纹理等细节信息,我们在极端天气条件下展现了卓越的检测性能。此外,在三种骨干网络上一致的改进表明我们的融合方法具有通用性,并能适应各种特征提取方法,从而提供稳定的性能提升。

DroneVehicle 数据集。 DroneVehicle 是一个具有挑战性的遥感数据集,包含密集标注的图像和小目标(例如"car"、"bus"、"van")。如表 2 所示,我们的方法在 m A P 50 mAP_{50} mAP50 和 mAP 指标上都进入了前三名,分别比第四名的方法高出 2.6% 和 3.6%。与其他利用遥感特定设计的方法不同,我们的方法保持通用性,但仍然在"truck"和"freight-car"类别中稳居前三。得益于我们独特的低频和高频融合,我们的方法擅长捕捉边缘细节,并实现了卓越的整体性能,突显了其在无需专门遥感设计的情况下增强多样化场景目标检测的能力。

LLVIP 数据集。 LLVIP 是一个用于行人检测的低光照数据集。如表 3 所示,我们将我们的方法在 LLVIP 数据集上的性能与最先进的单模态和融合模型进行了比较。在使用相同骨干网络的情况下,我们的方法取得了优越的性能。特别是,我们基于 YOLOv8 的方法取得了显著的最先进结果, m A P 50 mAP_{50} mAP50 达到 98.3%,mAP 达到 66.0%。

FLIR-Aligned 数据集。 为了展示我们方法的优势,我们使用更多指标将我们的方法与最先进的方法进行了比较。如表 4 所示,在使用相同骨干网络的情况下,我们的方法优于其他融合方法,实现了更高的精度,同时减少了参数量并提高了推理速度。例如,与 CrossFormer 相比,我们的方法在精确率(precision)上超出 5.8%,在召回率(recall)上超出 6.9%,在 F1 分数上超出 6.3%,并且模型大小减少了 2.944 亿个参数,推理时间减少了 35.9 毫秒。MFPT 和 ESSFN 也表现出类似的趋势。这一优势归功于我们的融合设计和 Mamba 的线性时间复杂度。这进一步凸显了我们的方法在优化计算资源和提高检测性能方面的有效性。

4.3. 可视化

热力图(Heatmaps)。 我们基于 Grad-CAM[47] 可视化了我们模型第一个逆小波变换层的热力图,并与基于 Grad-CAM[47] 的其他最先进方法[7, 38, 54, 84] 进行了比较。如图 3 所示,我们的模型通过利用小波变换和特征融合,有效地将注意力集中在目标上,最小化了在背景上的不必要关注。相比之下,其他方法往往关注更大的区域,包括背景,这使得小目标难以区分。

检测结果。 我们可视化了我们的检测结果,并与其他最先进的方法[7, 38, 54, 84]进行了比较。如图 4 所示,在具有挑战性的场景(即恶劣天气、低光照、严重遮挡或密集检测条件)下,我们的方法减少了漏检或误检的数量,实现了卓越的检测性能。

4.4. 消融研究

为了验证每个模块和不同融合策略的有效性,我们在 M3FD 数据集上使用 YOLOv8 骨干网络进行了消融研究。更多消融研究,例如我们 WMFB 的位置和数量,在补充材料中提供。

改进检测头(Improved Head)的效果。 我们在表 5 中将我们改进的检测头与原始的 YOLOv8 检测头进行了比较。如我们所见,使用我们改进的检测头使 m A P 50 mAP_{50} mAP50 和 mAP 提高了 1.1%,同时参数量减少了 7.6M。这一成就可以归因于使用了 DWT 和 IDWT 而不是下采样和上采样。使用 DWT 和 IDWT 保留了更多细节信息,减少了信息损失,并增强了对多尺度特征的捕获和重建能力,从而提高了模型的整体性能[11,72,82]。

SFM 和 DFM 模块的效果。 在表 6 中,我们通过分别移除这两个模块来消融 SFM 和 DFM 模块的影响。移除 SFM 导致 m A P 50 mAP_{50} mAP50 性能下降 1.5%,mAP 下降 2.1%。同样,移除 DFM 导致 m A P 50 mAP_{50} mAP50 下降 1.9%,mAP 下降 2.2%。这验证了 SFM 和 DFM 的重要性。它们从浅层到深层的融合设计在整合不同模态的特征方面展现出了积极的效果。

不同融合策略的效果。 为了验证我们提出的融合策略的有效性,我们在表 7 中将其与标准融合策略 Avg[97] 进行了评估。这里,(A, B) 表示使用策略 A 融合高频分量,使用策略 B 融合低频分量。从一个简单的基线(使用 Avg 融合,但不使用 DWT)开始,然后逐步加入 DWT 以及不同的融合策略。该基线没有使用 DWT,并且与我们改进的 YOLOv8 检测头不兼容,因此所有实验都使用原始检测头进行公平比较。通过比较第 1 行和第 2 行,我们证明了在小波域进行 RGB-IR 融合的有效性,进一步的比较(第 2 行到第 5 行)表明我们最终的组合(第 5 行)取得了最佳性能,有效地保留了目标的低频空间信息和高频细节特征。

好的,这是您提供的文档第五部分"Conclusion and Acknowledgements"的中文翻译,保持了原文结构和学术严谨性:

5. 结论与致谢

5.1 结论 (Conclusion)

在本文中,我们提出了 WaveMamba,这是一种利用不同模态固有的优势频率特性进行特征融合的方法,以促进充分的特征交互并提升 RGB-IR 目标检测的性能。

WaveMamba 的核心创新在于 WaveMamba 融合块(WMFB),它包含两个关键组件:用于融合低频特征的 低频 Mamba 融合块(LMFB) 和用于高效整合高频信息的 高频增强(HFE)策略。LMFB 利用 Mamba[42] 卓越的低频建模能力来整合低频信息。它包含两个模块:

  1. 浅层融合 Mamba(SFM)模块:通过交换部分 RGB 和 IR 通道实现轻量级的跨模态交互。
  2. 深层融合 Mamba(DFM)模块:使用门控注意力机制进一步细化融合过程,过滤冗余信息并提升低频特征融合的质量。

同时,HFE 策略采用"绝对值最大化"融合方法,增强对高频特征中关键细节的选择和保留。

这些创新的结合显著改进了两种模态特征的融合效果,如图 1© 所示。RGB 融合的低频特征更加丰富,而 IR 融合的特征则有效抑制了 IR 原始低频特性中的冗余噪声(如道路阴影)。同时,融合后的高频特征变得更加细致和显著。

在四个不同类型公共 RGB-IR 数据集上进行的大量实验表明,我们的方法在平衡参数量和效率的同时,取得了最先进(state-of-the-art)的结果。因此,这项工作为 RGB-IR 目标检测设定了一个新的基准,为该领域的未来研究开创了先例。

5.2 主要贡献 (Main Contributions)

本文的主要贡献总结如下:

  • 提出 WaveMamba 方法:我们提出了一种新颖的跨模态融合方法 WaveMamba,该方法利用离散小波变换(DWT)分解出的 RGB 和 IR 独特且互补的频率特征,有效地整合这些特征以提升目标检测性能。
  • 设计 WMFB 模块:我们设计了 WaveMamba 融合块(WMFB),其核心是包含 SFM 和 DFM 模块的低频 Mamba 融合块(LMFB),用于从浅层到深层逐步融合低频特征;以及高频增强(HFE)策略,用于高效地选择和保留高频细节信息,且不增加计算复杂度。
  • 改进检测头:我们提出了一种改进的 YOLOv8 检测头,该检测头集成了逆离散小波变换(IDWT),以减少信息损失并生成最终的检测结果。
  • 卓越的性能表现 :在四个公共数据集上的广泛实验证明,我们的方法在跨模态目标检测任务中实现了最先进的性能,平均 mAP 超过第二名方法 4.5 % 4.5\% 4.5%。

相关推荐
hixiong1232 分钟前
C# 编写一个XmlToDota的转换工具
开发语言·人工智能·yolo·c#
ManageEngineITSM27 分钟前
云原生环境下的ITSM新趋势:从传统运维到智能化服务管理
大数据·运维·人工智能·云原生·itsm·工单系统
aneasystone本尊1 小时前
可视化探索 GraphRAG 的知识图谱
人工智能
嘀咕博客1 小时前
Krea Video:Krea AI推出的AI视频生成工具
人工智能·音视频·ai工具
As33100101 小时前
Manus AI 与多语言手写识别技术全解析
大数据·网络·人工智能
小璐乱撞1 小时前
超越传统 RAG:GraphRAG 全流程解析与实战指南
人工智能·后端
慧星云1 小时前
魔多 AI 上线提现功能 :将你的收益安稳入袋!
人工智能·云计算·aigc
gloomyfish1 小时前
【零代码】OpenCV C# 快速开发框架演示
人工智能·opencv·c#
视觉语言导航1 小时前
上科大解锁城市建模新视角!AerialGo:从航拍视角到地面漫步的3D城市重建
人工智能·3d·具身智能
DevUI团队1 小时前
MateChat V1.7.0版本发布,前端智能化项目贡献者已经达到90+,智能化卡片特性持续演进,快来体验吧~
前端·vue.js·人工智能