Event-Based Visible and Infrared Fusion via Multi-Task Collaboration

Event-Based Visible and Infrared Fusion via Multi-Task Collaboration

论文

M. Geng, L. Zhu, L. Wang, W. Zhang, R. Xiong and Y. Tian, "Event-Based Visible and Infrared Fusion via Multi-Task Collaboration" 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2024, pp. 26919-26929

现有不足

  1. 由于基于帧的可见光和红外相机的硬件限制,在极端光照或高速运动场景中,VIF 系统可能会捕捉到曝光过度/不足或模糊的图像,这些基于帧的相机可能会因为帧率有限而出现运动模糊,这将导致输入质量受损而影响输出。

本文创新点

  1. 提出的 Event-based Visible and Infrared Fusion (EVIF)将事件相机结合到了 VIF 中以适应快速光照变化所导致的输入质量受损,从而修复受损的输入图像。为了协调事件与红外图像,该论文将其概括为三个子任务,分别是 1)基于事件的可见纹理重建,2)事件引导的红外图像去模糊,3)可见光与红外融合,并认为他们之间存在互补关系。用于纹理重建的事件特征主要捕捉精细的场景细节,而用于运动去模糊的特征则倾向于关注边缘运动。

!TIP

事件相机 基于事件驱动的工作机制,能够以微秒级的速度捕捉场景中的变化信息.具体原理是:事件相机通过异步监控每个像素的强度变化来工作,而不是捕获固定的像素值。在捕获过程中,每当像素的对数强度(较大的像素强度范围压缩为较小的范围,同时增强较暗区域的细节)变化超过某个阈值时,事件相机就会为该像素生成一个事件。
多任务学习同时学习多个任务,通过利用任务之间的共享信息,MTL 有可能提高单个任务的表现,同时降低整体模型复杂性。

  1. 提出了一种新的融合机制,重建可见光图像和红外图像之后,在解码器层对两者进行融合,通过 min 滤波模态特征之间的互信息以减少冗余并增加互补性,同时 max 融合特征与滤波前原始模态特征之间的互信息,以防止信息丢失的方法提高融合质量。

!TIP

互信息(Mutual Information, MI) 是用于衡量两个随机变量之间的依赖关系,量化了两个变量之间的信息共享程度

主要算法

EVIF 整体框架包含三个任务,分别是基于事件的可见纹理重建(采用 E2VID)、事件引导的红外图像去模糊(采用 EFNet)、可见与红外图融合;为了更好的优化任务 1 和 2 提出了跨任务事件增强方法,为了更好的优化任务 3 提出了给予互信息优化融合方法.

跨任务事件增强

  1. 由于事件去模糊网络的主要目标是揭示事件中的潜在运动线索,因此事件中固有的纹理特征可能并不是特别充分。因此采用两个 ConvGRU 以双向循环的方式从纹理重建的事件特征中中提取外观细节,并与运动去模糊的特征融合以补偿外观信息损失,以此增强去模糊网络中提取到的纹理特征得到 F r e c ′ F'_{rec} Frec′,并输送到去模糊网络中.
  2. 从纹理重建中得到的纹理信息直接添加到去模糊网络中会忽略两个任务之间特征分布的差异,因此设计了跨任务通道注意力(CTCA)来将重建任务的纹理信息融合到去模糊任务中,其中的 Q 来自去模糊网络提取的事件特征 F d e F_{de} Fde,K/V 来自可见光重构 2 中得到的的纹理特征 F r e c ′ F'_{rec} Frec′.

F attn = F rec V Softmax ( ( F de Q ) T F rec K h w ) . F_{\text{attn}} = F_{\text{rec}}^V \text{Softmax}\left(\frac{(F_{\text{de}}^Q)^T F_{\text{rec}}^K}{\sqrt{hw}}\right). Fattn=FrecVSoftmax(hw (FdeQ)TFrecK).

最后,将 F_{attn} 和 F d e F_{de} Fde 添加以获得增强的事件特征 F e n F_{en} Fen,以便在去模糊网络中进行进一步处理

基于互信息优化融合

  1. 双级最小-最大互信息(MI)优化是为了突出可见光和红外模态中存在的互补信息,同时减少信息损失
  2. 通过最小化 M I ( F v i s ′ , F i r ′ ) MI(F_{vis}^′,F_{ir}^′) MI(Fvis′,Fir′),可以减少模态间的冗余信息,突出每种模态的独特特性
  3. 通过最大化 M I ( F f u s e d , F v i s ) 和 M I ( F f u s e d , F i r ) MI(F_{fused},F_{vis}) 和 MI(F_{fused},F_{ir}) MI(Ffused,Fvis)和MI(Ffused,Fir)确保融合特征中尽可能多地保留各种原始模态的信息,避免信息丢失.

逐步训练

为了防止灾难性遗忘问题,引入了三阶段训练模式,每一阶段,保持前一阶段的训练任务,同时结合当前阶段的新的任务.

总结

为了解决多模态图像融合的极端光照和高动态运动场景所带来的模糊和欠曝光问题,引入事件相机,同时开发了一个 多任务协同框架,通过跨任务事件增强来优化任务 1 和 2,通过基于互信息优化融合优化任务 3,从而实现更好的融合图像.

相关推荐
(●—●)橘子……2 分钟前
记力扣1471.数组中的k个最强值 练习理解
数据结构·python·学习·算法·leetcode
道19932 分钟前
树莓派vsRK3588 对比及无人车集成方案(RTK / 激光雷达 / 云卓 H16)
人工智能
会挠头但不秃2 分钟前
深度学习(5)循环神经网络
人工智能·rnn·深度学习
乐迪信息3 分钟前
乐迪信息:AI摄像机识别煤矿出入井车辆数量异常检测
大数据·运维·人工智能·物联网·安全
_OP_CHEN5 分钟前
用极狐 CodeRider-Kilo 开发俄罗斯方块:AI 辅助编程的沉浸式体验
人工智能·vscode·python·ai编程·ai编程插件·coderider-kilo
这张生成的图像能检测吗5 分钟前
(论文速读)LCT:用于RGB-D突出物体检测的轻型跨模态变压器
图像处理·目标检测·计算机视觉·深度估计·轻量化模型·跨模态融合·rgb-d
代码洲学长7 分钟前
卷积神经网络CNN
人工智能·神经网络·cnn
Wpa.wk7 分钟前
自动化测试 - 文件上传 和 弹窗处理
开发语言·javascript·自动化测试·经验分享·爬虫·python·selenium
_OP_CHEN9 分钟前
【Python基础】(二)从 0 到 1 入门 Python 语法基础:从表达式到运算符的全面指南
开发语言·python
l1t10 分钟前
利用小米mimo为精确覆盖矩形问题C程序添加打乱函数求出更大的解
c语言·开发语言·javascript·人工智能·算法