1. 论文信息
-
论文题目: WaveMamba: Wavelet-driven Mamba Fusion for RGB-Infrared Object Detection
-
作者: Haodong Zhu, Wenhao Dong, Linlin Yang, Hong Li, Yuguang Yang, Yangyang Ren, Qingcheng Zhu, Zichao Feng, Changbai Li, Shaohui Lin, Runqi Wang, Xiaoyan Luo, Baochang Zhang
-
机构: Beihang University, Communication University of China, Beijing Jiaotong University, East China Normal University
-
会议: ICCV 2025
2. 论文摘要
WaveMamba 是一个面向 RGB--IR 跨模态目标检测的新方法,其核心思想是将**离散小波变换(DWT)与Mamba 状态空间模型(SSM)**结合,通过频域解耦与高效序列建模实现 RGB 与 IR 特征的深度融合。
研究者发现:
-
RGB 图像在高频子带中携带更多纹理与细节信息
-
IR 图像在低频子带中具有更高的信息熵,包含稳定的结构信息
WaveMamba 利用 DWT 将特征分解为低频与三类高频子带,并通过**WaveMamba Fusion Block (WMFB)**进行跨模态融合。其中,LMFB 结合 Mamba 建模低频全局结构,HFE 则通过"绝对值最大"规则选择关键高频细节。此外,论文对 YOLOv8 的检测头进行改造,引入 IDWT 作为上采样方式,实现更少信息损失的输出。
实验表明:WaveMamba 在 M3FD、DroneVehicle、LLVIP、FLIR-Aligned 四个公开 RGB-IR 数据集上均取得了显著性能提升,平均 mAP 超越第二名方法 4.5%,在复杂天气、极暗光、小目标场景表现尤为突出。
3. 论文创新点
论文的主要创新可归纳为以下四点:
(1)基于频域统计规律的跨模态融合公式化设计
论文首次系统性证明 RGB 与 IR 在不同频率子带的互补性,从统计信息熵切入提出融合策略,为 RGB-IR 跨模态研究提供了理论根据。
(2)提出 WaveMamba Fusion Block(WMFB)
WMFB 将小波频域特征与 Mamba 状态空间模型高效结合,实现:
-
对 低频结构信息 的深度建模(LMFB)
-
对 高频纹理细节 的有效过滤与增强(HFE)
是整个模型性能提升的关键。
(3)设计 Low-frequency Mamba Fusion Block(LMFB)
LMFB 采用浅层通道交换 + 深层门控注意机制 + SSM的多阶段融合结构,实现从局部到全局的频域建模。
(4)提出 High-Frequency Enhancement(HFE)策略
通过选择高频子带中绝对值更大的像素,实现高频细节强化,无额外计算量。
(5)基于 IDWT 的改进 YOLOv8 检测头
用 IDWT 替代传统上采样(如 nearest / bilinear),降低细节损失,使多尺度特征重建更平滑。
4. 论文动机
RGB 与红外(IR)是智能视觉中最常见的两种互补模态:
-
RGB 在昼间、光线充足环境表现优秀,但在低光、雨雾天气下细节缺失严重。
-
IR 能基于热辐射捕获稳定轮廓,不受照明影响,但缺乏纹理细节,易被噪声干扰。
现有跨模态检测常通过 CNN 或 Transformer 融合两种模态,但存在问题:
-
CNN 探测范围有限,难以捕获跨模态全局依赖。
-
Transformer 计算量大,不适合部署在实时或嵌入式设备。
-
大多数方法忽略 RGB 与 IR 在频域上的差异性,只在空间域做简单融合。
论文通过 DWT 分析发现:
-
RGB 高频熵 > IR 高频熵 → RGB 擅长纹理与边缘
-
IR 低频熵 > RGB 低频熵 → IR 更稳定地提供结构轮廓
这启发作者构建一个频域解耦、模态差异增强、线性复杂度的跨模态融合框架。
于是 WaveMamba 应运而生。

5. 方法
按照论文结构介绍整体框架、核心模块以及改进检测头设计。
5.1 模型整体架构

WaveMamba 由三部分组成:
-
双流特征 backbone(基于 YOLOv8 修改) 分别处理 RGB 与 IR 特征,并在第 2、3、5 层加入 DWT 生成频域子带。
-
三阶段 WaveMamba Fusion Block(WMFB) 融合每个尺度的低频与高频子带。
-
基于 IDWT 的 YOLOv8 检测头 用 IDWT 完成多尺度重建与检测。
5.2 小波变换 DWT:RGB/IR 特征的频域解耦
DWT 将特征分成 1 个低频 + 3 个高频子带:
-
LL(低频):包含轮廓、主体结构
-
LH、HL、HH(高频):包含边缘、方向性纹理、噪声
RGB、IR 分别编码为:
F_L, F_H = DWT(F)
DWT 提供一个天然的"模态分离器":
-
RGB 高频更可靠 → 精细纹理
-
IR 低频更稳定 → 主体结构
5.3 WaveMamba Fusion Block(WMFB)结构
WMFB 由 LMFB(低频融合)与 HFE(高频融合)组成,是模型的核心。
5.3.1 低频融合:Low-frequency Mamba Fusion Block (LMFB)
LMFB 包含两个阶段:
(1)SFM:浅层融合(Shallow Fusion Mamba)
在该部分进行通道交换(Channel Swapping),用于构建 RGB--IR 之间的跨通道关系:
T_{L,RGB}, T_{L,IR} = CS(F_{L,RGB}, F_{L,IR})
目的:让不同模态的低频特征共享结构信息,避免一方特征主导。
随后输入 VSS(Selective Scan)模块建模空间序列。
(2)DFM:深层融合(Deep Fusion Mamba)
核心是门控注意力机制(Gated Attention),用于过滤冗余低频结构噪声。
其结构包含:
-
主分支(primary)→ 深层结构建模
-
辅助分支(auxiliary)→ 跨模态补充
最终输出:
\\hat{F}*{L,RGB}, \\hat{F}* {L,IR} = DFM(\\tilde{F}*{L,RGB}, \\tilde{F}*{L,IR})
LMFB 在低频建模上效果显著,因 IR 低频稳定、RGB 低频细节丰富。
5.3.2 高频融合:High-Frequency Enhancement(HFE)
高频子带(LH、HL、HH)代表细节与纹理。HFE 通过:
"绝对值大的更重要"**的规则保留关键纹理:
F_H = Mask(\|F_H,RGB} - \|F_{H,IR\|) \\odot F_{H,RGB} + \\ldots
即像素级逐点选择高信息量细节。 无需额外参数,非常高效。
5.4 改进 YOLOv8 检测头:引入 IDWT
传统 YOLO 上采样主要使用:
-
最近邻
-
双线性
这些方式会损失细节,尤其对高频纹理敏感。
作者提出:
-
用 IR + RGB 融合后的低频包做基础
-
与 HFE 输出来执行 IDWT
F_{up} = IDWT(F_L, F_H)
效果:
-
更细腻的多尺度特征
-
更低的信息损失
-
参数减少 7.6M(对 YOLOv8)
6. 实验
实验在四大公开数据集上进行: M3FD、DroneVehicle、LLVIP、FLIR-Aligned。 以下按论文内容分别说明定量分析与定性可视化。
6.1 定量分析
6.1.1 M3FD 数据集(恶劣天气)

WaveMamba(YOLOv8 backbone)取得:
-
mAP50:92.1%
-
mAP:64.4%
相比第二名:
-
+5.5%(mAP50)
-
+5.1%(mAP)
在"car"、"lamp"、"people"等核心类别有显著优势。 得益于:
-
IR 低频 → 稳定轮廓
-
RGB 高频 → 雨雾场景纹理增强
6.1.2 DroneVehicle(小目标、遥感)

WaveMamba 获得:
-
mAP50:79.8%
-
mAP:60.5%
高于第四名方法 2.6%、3.6%。 小目标场景中,高频 HFE 对细节尤其关键。
6.1.3 LLVIP(极暗光行人检测)

YOLOv8+WaveMamba:
-
mAP50:98.3%(SOTA)
-
mAP:66.0%(SOTA)
IR 低频在夜间场景优势明显,LMFB 有效强化结构区域。
6.1.4 FLIR-Aligned(车载场景)

WaveMamba 不仅准确率高,还显著降低:
-
参数量
-
推理延迟
例如对比 CrossFormer:
-
+6.3% F1
-
--35.9ms 推理时间
说明 Mamba 线性复杂度优势明显。
6.2 定性分析
(1)Grad-CAM 热力图

WaveMamba 更聚焦目标区域,而非背景,尤其:
-
小目标
-
雨雾天气
-
夜间场景 相比其他方法的显著优势:背景干扰减少。
(2)检测可视化

WaveMamba 可减少:
-
漏检
-
误检
-
模态不一致引发的边缘伪影
HFE 对边缘纹理处理非常关键。
6.3 消融实验
改进 YOLO 头

IDWT:
-
+1.1% mAP
-
--7.6M 参数
小波重建比传统上采样明显更优。
SFM & DFM

删除任一模块均出现明显掉点:
-
mAP50 ↓约 1.5--1.9%
-
mAP ↓约 2--2.2%
说明低频建模链路必须保持完整。
不同融合策略

最终策略(HFE + LMFB)效果最佳。 证明:
-
低频需深度建模
-
高频需选择性增强