Event-Based Visible and Infrared Fusion via Multi-Task Collaboration

论文

M. Geng, L. Zhu, L. Wang, W. Zhang, R. Xiong and Y. Tian, "Event-Based Visible and Infrared Fusion via Multi-Task Collaboration" 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2024, pp. 26919-26929

现有不足

由于基于帧的可见光和红外相机的硬件限制，在极端光照或高速运动场景中，VIF 系统可能会捕捉到曝光过度/不足或模糊的图像，这些基于帧的相机可能会因为帧率有限而出现运动模糊，这将导致输入质量受损而影响输出。

本文创新点

提出的 Event-based Visible and Infrared Fusion （EVIF）将事件相机结合到了 VIF 中以适应快速光照变化所导致的输入质量受损，从而修复受损的输入图像。为了协调事件与红外图像，该论文将其概括为三个子任务，分别是 1）基于事件的可见纹理重建，2）事件引导的红外图像去模糊，3）可见光与红外融合，并认为他们之间存在互补关系。用于纹理重建的事件特征主要捕捉精细的场景细节，而用于运动去模糊的特征则倾向于关注边缘运动。

$!TIP$
事件相机 基于事件驱动的工作机制，能够以微秒级的速度捕捉场景中的变化信息.具体原理是：事件相机通过异步监控每个像素的强度变化来工作，而不是捕获固定的像素值。在捕获过程中，每当像素的对数强度（较大的像素强度范围压缩为较小的范围，同时增强较暗区域的细节）变化超过某个阈值时，事件相机就会为该像素生成一个事件。
多任务学习同时学习多个任务，通过利用任务之间的共享信息，MTL 有可能提高单个任务的表现，同时降低整体模型复杂性。

提出了一种新的融合机制，重建可见光图像和红外图像之后，在解码器层对两者进行融合，通过 min 滤波模态特征之间的互信息以减少冗余并增加互补性，同时 max 融合特征与滤波前原始模态特征之间的互信息，以防止信息丢失的方法提高融合质量。

$!TIP$
互信息（Mutual Information, MI） 是用于衡量两个随机变量之间的依赖关系,量化了两个变量之间的信息共享程度

主要算法

EVIF 整体框架包含三个任务，分别是基于事件的可见纹理重建(采用 E2VID)、事件引导的红外图像去模糊(采用 EFNet)、可见与红外图融合；为了更好的优化任务 1 和 2 提出了跨任务事件增强方法,为了更好的优化任务 3 提出了给予互信息优化融合方法.

跨任务事件增强

由于事件去模糊网络的主要目标是揭示事件中的潜在运动线索，因此事件中固有的纹理特征可能并不是特别充分。因此采用两个 ConvGRU 以双向循环的方式从纹理重建的事件特征中中提取外观细节，并与运动去模糊的特征融合以补偿外观信息损失，以此增强去模糊网络中提取到的纹理特征得到 F r e c ′ F'_{rec} Frec′,并输送到去模糊网络中.
从纹理重建中得到的纹理信息直接添加到去模糊网络中会忽略两个任务之间特征分布的差异,因此设计了跨任务通道注意力(CTCA)来将重建任务的纹理信息融合到去模糊任务中,其中的 Q 来自去模糊网络提取的事件特征 F d e F_{de} Fde,K/V 来自可见光重构 2 中得到的的纹理特征 F r e c ′ F'_{rec} Frec′.

F attn = F rec V Softmax ( ( F de Q ) T F rec K h w ) . F_{\text{attn}} = F_{\text{rec}}^V \text{Softmax}\left(\frac{(F_{\text{de}}^Q)^T F_{\text{rec}}^K}{\sqrt{hw}}\right). Fattn=FrecVSoftmax(hw (FdeQ)TFrecK).

最后，将 $F_{attn}$ 和 F d e F_{de} Fde 添加以获得增强的事件特征 F e n F_{en} Fen，以便在去模糊网络中进行进一步处理

基于互信息优化融合

双级最小-最大互信息（MI）优化是为了突出可见光和红外模态中存在的互补信息，同时减少信息损失
通过最小化 M I ( F v i s ′ , F i r ′ ) MI(F_{vis}^′,F_{ir}^′) MI(Fvis′,Fir′)，可以减少模态间的冗余信息，突出每种模态的独特特性
通过最大化 M I ( F f u s e d , F v i s ) 和 M I ( F f u s e d , F i r ) MI(F_{fused},F_{vis}) 和 MI(F_{fused},F_{ir}) MI(Ffused,Fvis)和MI(Ffused,Fir)确保融合特征中尽可能多地保留各种原始模态的信息，避免信息丢失.

逐步训练

为了防止灾难性遗忘问题,引入了三阶段训练模式,每一阶段，保持前一阶段的训练任务，同时结合当前阶段的新的任务.

总结

为了解决多模态图像融合的极端光照和高动态运动场景所带来的模糊和欠曝光问题,引入事件相机,同时开发了一个多任务协同框架,通过跨任务事件增强来优化任务 1 和 2,通过基于互信息优化融合优化任务 3,从而实现更好的融合图像.