全文导读
多模态图像融合(MMIF)在自动驾驶、无人机监测和安防巡检等领域具有广阔的应用前景,但长期以来,该领域的研究主要聚焦于理想的成像条件,对真实世界中普遍存在的雨、雾、雪等恶劣天气干扰研究不足。更关键的是,学术界一直缺乏一个能够系统性支撑此类研究的大规模基准数据集,这极大限制了融合技术向复杂真实场景的落地应用。
聚焦这一现状,本专题深入探讨恶劣天气下的多模态融合难题,并重点引出大规模基准数据集 AWMM-100k。该数据集包含10万+对精准配准的红外-可见光图像,全面涵盖雨、雾、雪三种天气的轻、中、重三个退化等级,并兼具合成与真实采集数据。围绕这一核心基准,本期内容将系统梳理从传统建模、深度学习统一框架、视觉-语言模型引导和Mamba架构等维度的4篇代表性工作,旨在与领域同行分享系统性的研究思路,共同推动多模态融合技术真正走向真实世界。
{AWMM-100K 基准数据集}
下载:
https://ixilai.github.io/AWMM-100K/
作者:Xilai Li | Wuyang Liu | Xiaosong Li* | Fuqiang Zhou | Huafeng Li | Feiping Nie
摘要
现有多模态图像融合(MMIF)数据集对于恶劣天气条件的覆盖仍不够全面。为解决这一问题,本文提出了 AWMM-100K,一个大规模基准数据集。该数据集基于 RoadScene、MSRS、M3FD 和 LLVIP 构建,并通过可控退化过程模拟雨、雾和雪等天气条件。
此外,本文还利用搭载高分辨率可见光与热红外相机的 DJI M30T 无人机采集了真实场景数据。AWMM-100K 共包含超过 187,699 张图像,并将天气条件划分为轻度、中度和重度三种强度等级。该数据集不仅支持多模态图像融合研究,同时也可用于去雾、去雨和去雪等图像恢复任务的研究。
Dataset Overview

Image Fusion

Image Restoration

Real Scene

Compound Degradation

研究成果一

题目:
UMCFuse: A Unified Multiple Complex Scenes Infrared and Visible Image Fusion Framework | 面向多种复杂场景的统一红外与可见光图像融合框架
发表:IEEE TIP, 2025
作者:
Xilai Li, Xiaosong Li*, Tianshu Tan, Huafeng Li, Tao Ye
单位:
佛山大学 物理与光电工程学院,粤港澳智能微纳光电技术联合实验室
香港科技大学 工学院
昆明理工大学 信息工程与自动化学院
中国矿业大学(北京) 机电与信息工程学院
代码:
https://github.com/ixilai/UMCFuse
论文:
https://arxiv.org/pdf/2402.02096v2
摘要:
红外与可见光图像融合已成为计算机视觉的热点研究方向,但现有方法对复杂场景下的融合任务关注较少,在干扰环境中常出现性能下降。为填补这一空白,本文提出面向复杂场景的统一融合框架 UMCFuse。具体而言,作者从光传输散射的角度对可见光图像像素进行分类,从而将细节信息与整体强度分离;在干扰去除与细节保留之间取得平衡,是保证方法泛化能力的关键。为此,作者针对细节层提出了自适应去噪融合策略,并通过多方向分析对不同模态的能量特征进行融合。在真实与合成的复杂场景数据集上的大量实验(覆盖恶劣天气、噪声、模糊、过曝、火灾等)以及语义分割、目标检测、显著性检测、深度估计等下游任务,均一致表明所提方法相比近期代表性方法具有显著优势。

动机:基于物理统一表征的复杂多场景融合范式
现有算法常将暗光、雨雾等退化视为独立任务,导致在真实复杂场景下泛化能力较差。UMCFuse 突破了这一局限,从物理成像机制切入,利用大气散射模型(ASM)为各类视觉退化建立了一个跨域的"统一物理表征"。
为了应对多种退化映射,该工作创新性地提出了透射图(Transmission Map)分解策略。这一机制将场景的"退化属性"与"图像本征内容"显式解耦,使得模型摆脱了复杂的"黑盒"映射,转而进行可解释的物理参数估计。这不仅大幅降低了网络学习多场景退化的难度,更赋予了算法在不同复杂环境下的自适应融合能力。


研究成果二

题目:
All-weather Multi-modality Image Fusion: Unified Framework and 100k Benchmark | 全天候多模态图像融合:统一框架与10万级基准
发表:Information Fusion, 2026
作者:
Xilai Li, Wuyang Liu, Xiaosong Li*, Fuqiang Zhou, Huafeng Li, Feiping Nie
单位:
佛山大学 物理与光电工程学院,粤港澳智能微纳光电技术联合实验室
佛山大学 广东省工业智能检测技术重点实验室
北京航空航天大学 仪器科学与光电工程学院
昆明理工大学 信息工程与自动化学院
西北工业大学 人工智能、光学与电子学院
代码:
https://github.com/ixilai/AWFusion
论文:
https://arxiv.org/pdf/2402.02090
摘要:
多模态图像融合(MMIF)通过整合不同模态的互补信息,为场景提供更全面客观的表达。然而,现有融合方法难以抵御真实场景中多样的天气干扰,限制了实际应用。为此,本文提出端到端统一的全天候 MMIF 模型 AWFusion。该方法不再单纯追求像素级恢复,而是通过联合特征融合与恢复最大化关键场景信息的表达。具体而言:首先将图像分解为低秩与稀疏分量,实现有效的特征解耦以增强多模态感知;在特征恢复阶段,引入物理感知的清晰特征预测模块,通过照度与反射率推断光透射变化,网络生成的清晰特征用于增强显著信息表达。同时,作者构建了大规模 MMIF 数据集 AWMM-100k,包含10万对图像,系统覆盖雨、雾、雪三种天气及不同退化等级和多样场景。在真实与合成场景下的实验表明,该方法在图像融合及目标检测、语义分割、深度估计等下游任务上均表现卓越。

动机:化解任务目标冲突,转向"关键信息表征"的新范式
传统的图像恢复追求完美的像素级重建,但这与多模态图像融合"舍弃冗余、保留互补"的核心目标存在本质冲突。事实上,即使在恶劣天气下,图像仍保留了足够的冗余信息,网络无需先进行全盘的像素级修复,即可凭借有效局部像素推断出高层语义。
基于此,该工作提出了"先整合互补信息,再恢复清晰特征"的新范式,将网络的优化目标从"完美的像素级恢复"彻底转向"最大化关键场景信息的表征"。这种策略让模型优先提取多模态的有效细节并主动忽略冗余,不仅降低了计算复杂度,更从根本上提升了还原场景真实特征的能力。




研究成果三

题目:
AWM-Fuse: Multi-Modality Image Fusion for Adverse Weather via Global and Local Text Perception | 基于全局与局部文本感知的恶劣天气多模态图像融合
发表:IEEE TIP, 2026
作者:
Xilai Li, Huichun Liu, Xiaosong Li*, Tao Ye, Zhenyu Kuang, Huafeng Li
单位:
佛山大学 粤港澳智能微纳光电技术联合实验室
中国矿业大学(北京) 机电与信息工程学院
昆明理工大学 信息工程与自动化学院
代码:
https://github.com/Feecuin/AWM-Fuse
论文:
https://ieeexplore.ieee.org/document/11515008
摘要:
恶劣天气下的多模态图像融合(MMIF)旨在弥补天气退化导致的视觉信息损失,提供更清晰的场景表达。尽管已有少量研究尝试引入文本信息增强语义感知,但往往缺乏对文本内容的有效分类与深入利用。为此,本文提出统一融合框架 AWM-Fuse,通过全局与局部双层文本感知,以共享参数应对多种天气退化。具体而言:全局文本感知模块利用 BLIP 生成的描述提取整体场景特征并识别主要退化类型,提升对多种恶劣天气的泛化能力;局部文本感知模块则利用 ChatGPT 生成的精细场景描述,聚焦具体退化效应,助力细节恢复。此外,作者利用文本描述约束融合图像的生成,有效引导网络学习与语义标签更对齐的视觉特征。为支撑文本引导的恶劣天气融合研究,作者构建了AWMM-Text------首个为多模态图像对提供全局与局部配对文本标注的大规模基准。大量实验表明,AWM-Fuse 在复杂天气条件及多种下游任务上均一致优于现有 SOTA 方法。

动机:突破现有大模型语义瓶颈,构建全局与局部兼顾的文本感知先验
借助视觉-语言模型的文本语义指导图像融合是当前热点,但在真实恶劣天气下往往面临"语义表征"瓶颈。现有方法的文本嵌入存在两个极端:简单的粗粒度标签(如"下雨")无法捕捉局部退化细节;而冗长的详细描述又易导致模型丧失对全局一致性的把控。此外,极端天气还会导致红外与可见光双模态同时退化。
为此,AWM-Fuse 跳出现有设计的局限,创新性地构建了协同"全局退化语义"与"局部细节属性"的双维度文本感知机制。通过这种精准的文本先验来引导多模态特征交互,真正攻克了复杂天气下双模态同时退化的鲁棒性难题。



研究成果四

题目:
CAWM-Mamba: A Unified Model for Infrared-Visible Image Fusion and Compound Adverse Weather Restoration | 面向红外-可见光图像融合与复合恶劣天气恢复的统一模型
发表:
Expert Systems With Applications, 2026
作者:
Huichun Liu, Xiaosong Li*, Zhuangfan Huang, Tao Ye, Yang Liu, Haishu Tan
单位:
佛山大学 物理与光电工程学院
佛山大学 粤港澳智能微纳光电技术联合实验室
中国矿业大学(北京) 机电与信息工程学院
代码:
https://github.com/Feecuin/CAWM-Mamba
论文:
https://arxiv.org/pdf/2603.02560
摘要:
多模态图像融合在自动驾驶、无人机监测等场景中至关重要,但现有恶劣天气融合方法通常只能处理单一类型退化(如雨、雾或雪),在复合退化(如雾+雨、雨+雪)同时存在时往往失效。为此,本文提出 CAWM-Mamba------首个以共享权重端到端联合执行图像融合与复合天气恢复的统一框架。网络包含三大关键组件:(1)天气感知预处理模块(WAPM),增强退化可见光特征并提取全局天气嵌入;(2)跨模态特征交互模块(CFIM),促进异质模态对齐与互补特征交换;(3)小波空间状态块(WSSB),利用小波域分解解耦多频率退化,其中 Freq-SSM 无冗余地建模各向异性高频退化,并通过统一退化表示机制提升对复杂复合天气的泛化能力。在 AWMM-100k 基准及三个标准融合数据集上的大量实验表明,CAWM-Mamba 在复合与单一天气场景下均持续优于 SOTA 方法,且在语义分割与目标检测等下游任务上表现优异,验证了其在真实恶劣天气感知中的实用价值。

动机:频域解耦与状态空间模型破解复合退化难题
现有方法多局限于单一退化假设,且高度依赖人工预处理,既难以应对真实的"多重复合退化"现象,也严重拖累了推理效率。CAWM-Mamba 致力于化解"复合退化高复杂性"与"推理高效性"的矛盾,构建了一个端到端的统一模型。
为摆脱预处理的桎梏,该网络自发提取全局天气先验来引导跨模态特征交互。同时,针对传统空间域处理的局限,该工作创新性地切入小波域,将频域分解与状态空间模型(Mamba)相结合。通过解耦复合降解过程,并利用高频方向特征精准应对多方向干扰,从根本上提升了模型在极端复合环境下的泛化能力与稳健性。


结束语
回顾本期专题,我们以AWMM-100k基准数据集为基石,盘点了恶劣天气多模态图像融合的破局之路:从UMCFuse的多场景统一框架、AWFusion的全天候基线,到AWM-Fuse引入大模型文本感知,再到CAWM-Mamba利用状态空间模型应对复合退化。这四篇工作层层递进,从传统建模到前沿架构,全面填补了该领域的基准空白与算法解题思路。
展望未来,多模态融合技术向真实世界进军仍有广阔的探索空间:
-
攻克"复合且动态"的极端环境:应对诸如"雨夹雪伴随夜雾"等多重交织、动态变化的高度复杂退化场景,持续提升模型的泛化与鲁棒性。
-
迈向边缘设备与实时推理:走向工业落地的关键在于,在保障融合质量的前提下,大幅优化模型的参数量 (Params)、计算开销 (FLOPs)并提升推理速度 (FPS),让技术能真正轻量化部署在无人机、车载芯片等资源受限的硬件中。
-
深化下游任务的"端到端"协同:视觉的最终目的是让机器"看懂"。将图像融合与目标检测、语义分割等高级视觉任务进行更深度的联合优化,是赋能全天候自动驾驶与智慧安防的核心动力。
作者期待AWMM-100k能成为大家手中的优质练兵场。科学探索永无止境,欢迎更多同行加入这一阵地,共同拨开雨雪风霜,迎接真正的"全天候视界"!
往期推荐




