论文10-ICCV 2025 | WaveMamba:面向RGB-红外目标检测的多频域Mamba融合新范式

1. 论文信息

  • 论文题目: WaveMamba: Wavelet-driven Mamba Fusion for RGB-Infrared Object Detection

  • 作者: Haodong Zhu, Wenhao Dong, Linlin Yang, Hong Li, Yuguang Yang, Yangyang Ren, Qingcheng Zhu, Zichao Feng, Changbai Li, Shaohui Lin, Runqi Wang, Xiaoyan Luo, Baochang Zhang

  • 机构: Beihang University, Communication University of China, Beijing Jiaotong University, East China Normal University

  • 会议: ICCV 2025

  • **源码链接:**https://github.com/EhanDong/WaveMamba


2. 论文摘要

WaveMamba 是一个面向 RGB--IR 跨模态目标检测的新方法,其核心思想是将**离散小波变换(DWT)Mamba 状态空间模型(SSM)**结合,通过频域解耦与高效序列建模实现 RGB 与 IR 特征的深度融合。

研究者发现:

  • RGB 图像在高频子带中携带更多纹理与细节信息

  • IR 图像在低频子带中具有更高的信息熵,包含稳定的结构信息

WaveMamba 利用 DWT 将特征分解为低频与三类高频子带,并通过**WaveMamba Fusion Block (WMFB)**进行跨模态融合。其中,LMFB 结合 Mamba 建模低频全局结构,HFE 则通过"绝对值最大"规则选择关键高频细节。此外,论文对 YOLOv8 的检测头进行改造,引入 IDWT 作为上采样方式,实现更少信息损失的输出。

实验表明:WaveMamba 在 M3FD、DroneVehicle、LLVIP、FLIR-Aligned 四个公开 RGB-IR 数据集上均取得了显著性能提升,平均 mAP 超越第二名方法 4.5%,在复杂天气、极暗光、小目标场景表现尤为突出。


3. 论文创新点

论文的主要创新可归纳为以下四点:

(1)基于频域统计规律的跨模态融合公式化设计

论文首次系统性证明 RGB 与 IR 在不同频率子带的互补性,从统计信息熵切入提出融合策略,为 RGB-IR 跨模态研究提供了理论根据。

(2)提出 WaveMamba Fusion Block(WMFB)

WMFB 将小波频域特征与 Mamba 状态空间模型高效结合,实现:

  • 低频结构信息 的深度建模(LMFB)

  • 高频纹理细节 的有效过滤与增强(HFE)

是整个模型性能提升的关键。

(3)设计 Low-frequency Mamba Fusion Block(LMFB)

LMFB 采用浅层通道交换 + 深层门控注意机制 + SSM的多阶段融合结构,实现从局部到全局的频域建模。

(4)提出 High-Frequency Enhancement(HFE)策略

通过选择高频子带中绝对值更大的像素,实现高频细节强化,无额外计算量。

(5)基于 IDWT 的改进 YOLOv8 检测头

用 IDWT 替代传统上采样(如 nearest / bilinear),降低细节损失,使多尺度特征重建更平滑。


4. 论文动机

RGB 与红外(IR)是智能视觉中最常见的两种互补模态:

  • RGB 在昼间、光线充足环境表现优秀,但在低光、雨雾天气下细节缺失严重。

  • IR 能基于热辐射捕获稳定轮廓,不受照明影响,但缺乏纹理细节,易被噪声干扰。

现有跨模态检测常通过 CNN 或 Transformer 融合两种模态,但存在问题:

  1. CNN 探测范围有限,难以捕获跨模态全局依赖。

  2. Transformer 计算量大,不适合部署在实时或嵌入式设备。

  3. 大多数方法忽略 RGB 与 IR 在频域上的差异性,只在空间域做简单融合。

论文通过 DWT 分析发现:

  • RGB 高频熵 > IR 高频熵 → RGB 擅长纹理与边缘

  • IR 低频熵 > RGB 低频熵 → IR 更稳定地提供结构轮廓

这启发作者构建一个频域解耦、模态差异增强、线性复杂度的跨模态融合框架

于是 WaveMamba 应运而生。

5. 方法

按照论文结构介绍整体框架、核心模块以及改进检测头设计。


5.1 模型整体架构

WaveMamba 由三部分组成:

  1. 双流特征 backbone(基于 YOLOv8 修改) 分别处理 RGB 与 IR 特征,并在第 2、3、5 层加入 DWT 生成频域子带。

  2. 三阶段 WaveMamba Fusion Block(WMFB) 融合每个尺度的低频与高频子带。

  3. 基于 IDWT 的 YOLOv8 检测头 用 IDWT 完成多尺度重建与检测。


5.2 小波变换 DWT:RGB/IR 特征的频域解耦

DWT 将特征分成 1 个低频 + 3 个高频子带:

  • LL(低频):包含轮廓、主体结构

  • LH、HL、HH(高频):包含边缘、方向性纹理、噪声

RGB、IR 分别编码为:

F_L, F_H = DWT(F)

DWT 提供一个天然的"模态分离器":

  • RGB 高频更可靠 → 精细纹理

  • IR 低频更稳定 → 主体结构


5.3 WaveMamba Fusion Block(WMFB)结构

WMFB 由 LMFB(低频融合)与 HFE(高频融合)组成,是模型的核心。


5.3.1 低频融合:Low-frequency Mamba Fusion Block (LMFB)

LMFB 包含两个阶段:


(1)SFM:浅层融合(Shallow Fusion Mamba)

在该部分进行通道交换(Channel Swapping),用于构建 RGB--IR 之间的跨通道关系:

T_{L,RGB}, T_{L,IR} = CS(F_{L,RGB}, F_{L,IR})

目的:让不同模态的低频特征共享结构信息,避免一方特征主导。

随后输入 VSS(Selective Scan)模块建模空间序列。


(2)DFM:深层融合(Deep Fusion Mamba)

核心是门控注意力机制(Gated Attention),用于过滤冗余低频结构噪声。

其结构包含:

  • 主分支(primary)→ 深层结构建模

  • 辅助分支(auxiliary)→ 跨模态补充

最终输出:

\\hat{F}*{L,RGB}, \\hat{F}* {L,IR} = DFM(\\tilde{F}*{L,RGB}, \\tilde{F}*{L,IR})

LMFB 在低频建模上效果显著,因 IR 低频稳定、RGB 低频细节丰富。


5.3.2 高频融合:High-Frequency Enhancement(HFE)

高频子带(LH、HL、HH)代表细节与纹理。HFE 通过:

"绝对值大的更重要"**的规则保留关键纹理:

F_H = Mask(\|F_H,RGB} - \|F_{H,IR\|) \\odot F_{H,RGB} + \\ldots

即像素级逐点选择高信息量细节。 无需额外参数,非常高效。


5.4 改进 YOLOv8 检测头:引入 IDWT

传统 YOLO 上采样主要使用:

  • 最近邻

  • 双线性

这些方式会损失细节,尤其对高频纹理敏感。

作者提出:

  • 用 IR + RGB 融合后的低频包做基础

  • 与 HFE 输出来执行 IDWT

F_{up} = IDWT(F_L, F_H)

效果:

  • 更细腻的多尺度特征

  • 更低的信息损失

  • 参数减少 7.6M(对 YOLOv8)


6. 实验

实验在四大公开数据集上进行: M3FD、DroneVehicle、LLVIP、FLIR-Aligned。 以下按论文内容分别说明定量分析与定性可视化。


6.1 定量分析

6.1.1 M3FD 数据集(恶劣天气)

WaveMamba(YOLOv8 backbone)取得:

  • mAP50:92.1%

  • mAP:64.4%

相比第二名:

  • +5.5%(mAP50)

  • +5.1%(mAP)

在"car"、"lamp"、"people"等核心类别有显著优势。 得益于:

  • IR 低频 → 稳定轮廓

  • RGB 高频 → 雨雾场景纹理增强


6.1.2 DroneVehicle(小目标、遥感)

WaveMamba 获得:

  • mAP50:79.8%

  • mAP:60.5%

高于第四名方法 2.6%、3.6%。 小目标场景中,高频 HFE 对细节尤其关键。


6.1.3 LLVIP(极暗光行人检测)

YOLOv8+WaveMamba:

  • mAP50:98.3%(SOTA)

  • mAP:66.0%(SOTA)

IR 低频在夜间场景优势明显,LMFB 有效强化结构区域。


6.1.4 FLIR-Aligned(车载场景)

WaveMamba 不仅准确率高,还显著降低:

  • 参数量

  • 推理延迟

例如对比 CrossFormer:

  • +6.3% F1

  • --35.9ms 推理时间

说明 Mamba 线性复杂度优势明显。


6.2 定性分析

(1)Grad-CAM 热力图

WaveMamba 更聚焦目标区域,而非背景,尤其:

  • 小目标

  • 雨雾天气

  • 夜间场景 相比其他方法的显著优势:背景干扰减少。

(2)检测可视化

WaveMamba 可减少:

  • 漏检

  • 误检

  • 模态不一致引发的边缘伪影

HFE 对边缘纹理处理非常关键。


6.3 消融实验

改进 YOLO 头

IDWT:

  • +1.1% mAP

  • --7.6M 参数

小波重建比传统上采样明显更优。


SFM & DFM

删除任一模块均出现明显掉点:

  • mAP50 ↓约 1.5--1.9%

  • mAP ↓约 2--2.2%

说明低频建模链路必须保持完整。


不同融合策略

最终策略(HFE + LMFB)效果最佳。 证明:

  • 低频需深度建模

  • 高频需选择性增强

相关推荐
中冕—霍格沃兹软件开发测试6 小时前
Git版本控制在测试项目管理中的应用
人工智能·git·科技·开源·appium·bug
用户5191495848456 小时前
ADBKeyBoard:通过ADB实现Android虚拟键盘输入
人工智能·aigc
Lululaurel6 小时前
AI编程文本挖掘提示词实战
人工智能·python·机器学习·ai·ai编程·提示词
一瞬祈望7 小时前
⭐ 深度学习入门体系(第 3 篇):反向传播到底怎么工作的?
人工智能·深度学习
居然JuRan7 小时前
终于有人把大模型讲明白了:LLM 从入门到精通全解析
人工智能
2501_924794907 小时前
告别报告撰写“时间黑洞”:华为云Flexus AI智能体,重塑企业研究与决策效率
人工智能·华为云
kkk_皮蛋7 小时前
“红色警报“后的反击:OpenAI 发布 GPT-5.2,AI 霸主之争白热化
人工智能·gpt·chatgpt
Felaim7 小时前
Sparse4D 时序输入和 Feature Queue 详解
人工智能·深度学习·自动驾驶
Ki13817 小时前
我的AI学习小结:从入门到放弃
人工智能·学习