Event-Based Visible and Infrared Fusion via Multi-Task Collaboration

Event-Based Visible and Infrared Fusion via Multi-Task Collaboration

论文

M. Geng, L. Zhu, L. Wang, W. Zhang, R. Xiong and Y. Tian, "Event-Based Visible and Infrared Fusion via Multi-Task Collaboration" 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2024, pp. 26919-26929

现有不足

  1. 由于基于帧的可见光和红外相机的硬件限制,在极端光照或高速运动场景中,VIF 系统可能会捕捉到曝光过度/不足或模糊的图像,这些基于帧的相机可能会因为帧率有限而出现运动模糊,这将导致输入质量受损而影响输出。

本文创新点

  1. 提出的 Event-based Visible and Infrared Fusion (EVIF)将事件相机结合到了 VIF 中以适应快速光照变化所导致的输入质量受损,从而修复受损的输入图像。为了协调事件与红外图像,该论文将其概括为三个子任务,分别是 1)基于事件的可见纹理重建,2)事件引导的红外图像去模糊,3)可见光与红外融合,并认为他们之间存在互补关系。用于纹理重建的事件特征主要捕捉精细的场景细节,而用于运动去模糊的特征则倾向于关注边缘运动。

!TIP

事件相机 基于事件驱动的工作机制,能够以微秒级的速度捕捉场景中的变化信息.具体原理是:事件相机通过异步监控每个像素的强度变化来工作,而不是捕获固定的像素值。在捕获过程中,每当像素的对数强度(较大的像素强度范围压缩为较小的范围,同时增强较暗区域的细节)变化超过某个阈值时,事件相机就会为该像素生成一个事件。
多任务学习同时学习多个任务,通过利用任务之间的共享信息,MTL 有可能提高单个任务的表现,同时降低整体模型复杂性。

  1. 提出了一种新的融合机制,重建可见光图像和红外图像之后,在解码器层对两者进行融合,通过 min 滤波模态特征之间的互信息以减少冗余并增加互补性,同时 max 融合特征与滤波前原始模态特征之间的互信息,以防止信息丢失的方法提高融合质量。

!TIP

互信息(Mutual Information, MI) 是用于衡量两个随机变量之间的依赖关系,量化了两个变量之间的信息共享程度

主要算法

EVIF 整体框架包含三个任务,分别是基于事件的可见纹理重建(采用 E2VID)、事件引导的红外图像去模糊(采用 EFNet)、可见与红外图融合;为了更好的优化任务 1 和 2 提出了跨任务事件增强方法,为了更好的优化任务 3 提出了给予互信息优化融合方法.

跨任务事件增强

  1. 由于事件去模糊网络的主要目标是揭示事件中的潜在运动线索,因此事件中固有的纹理特征可能并不是特别充分。因此采用两个 ConvGRU 以双向循环的方式从纹理重建的事件特征中中提取外观细节,并与运动去模糊的特征融合以补偿外观信息损失,以此增强去模糊网络中提取到的纹理特征得到 F r e c ′ F'_{rec} Frec′,并输送到去模糊网络中.
  2. 从纹理重建中得到的纹理信息直接添加到去模糊网络中会忽略两个任务之间特征分布的差异,因此设计了跨任务通道注意力(CTCA)来将重建任务的纹理信息融合到去模糊任务中,其中的 Q 来自去模糊网络提取的事件特征 F d e F_{de} Fde,K/V 来自可见光重构 2 中得到的的纹理特征 F r e c ′ F'_{rec} Frec′.

F attn = F rec V Softmax ( ( F de Q ) T F rec K h w ) . F_{\text{attn}} = F_{\text{rec}}^V \text{Softmax}\left(\frac{(F_{\text{de}}^Q)^T F_{\text{rec}}^K}{\sqrt{hw}}\right). Fattn=FrecVSoftmax(hw (FdeQ)TFrecK).

最后,将 F_{attn} 和 F d e F_{de} Fde 添加以获得增强的事件特征 F e n F_{en} Fen,以便在去模糊网络中进行进一步处理

基于互信息优化融合

  1. 双级最小-最大互信息(MI)优化是为了突出可见光和红外模态中存在的互补信息,同时减少信息损失
  2. 通过最小化 M I ( F v i s ′ , F i r ′ ) MI(F_{vis}^′,F_{ir}^′) MI(Fvis′,Fir′),可以减少模态间的冗余信息,突出每种模态的独特特性
  3. 通过最大化 M I ( F f u s e d , F v i s ) 和 M I ( F f u s e d , F i r ) MI(F_{fused},F_{vis}) 和 MI(F_{fused},F_{ir}) MI(Ffused,Fvis)和MI(Ffused,Fir)确保融合特征中尽可能多地保留各种原始模态的信息,避免信息丢失.

逐步训练

为了防止灾难性遗忘问题,引入了三阶段训练模式,每一阶段,保持前一阶段的训练任务,同时结合当前阶段的新的任务.

总结

为了解决多模态图像融合的极端光照和高动态运动场景所带来的模糊和欠曝光问题,引入事件相机,同时开发了一个 多任务协同框架,通过跨任务事件增强来优化任务 1 和 2,通过基于互信息优化融合优化任务 3,从而实现更好的融合图像.

相关推荐
小赖同学啊20 分钟前
物联网数据安全区块链服务
开发语言·python·区块链
码荼41 分钟前
学习开发之hashmap
java·python·学习·哈希算法·个人开发·小白学开发·不花钱不花时间crud
书玮嘎44 分钟前
【WIP】【VLA&VLM——InternVL系列】
人工智能·深度学习
猫头虎1 小时前
猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP
运维·人工智能·gpt·开源·自动化·文心一言·ai编程
要努力啊啊啊1 小时前
YOLOv2 正负样本分配机制详解
人工智能·深度学习·yolo·计算机视觉·目标跟踪
CareyWYR1 小时前
大模型真的能做推荐系统吗?ARAG论文给了我一个颠覆性的答案
人工智能
特立独行的猫a1 小时前
百度AI文心大模型4.5系列开源模型评测,从安装部署到应用体验
人工智能·百度·开源·文心一言·文心一言4.5
SKYDROID云卓小助手2 小时前
无人设备遥控器之自动调整编码技术篇
人工智能·嵌入式硬件·算法·自动化·信号处理
小陈phd2 小时前
李宏毅机器学习笔记——梯度下降法
人工智能·python·机器学习