分而治之:用于 RGB-T 显著目标检测的 Confluent Triple-Flow 网络

摘要

RGB-thermal显著对象检测(RGB-T SOD)的目的是指出可见和热红外图像对齐对中的突出物体。一个关键挑战在于弥合RGB和热模式之间的固有差异,以实现有效的显着性图预测。传统的编码器架构虽然是为跨模式功能交互而设计的,但可能没有充分考虑针对有缺陷方式的噪声的稳健性,从而导致在复杂的场景中导致次优性能。受层次人类视觉系统的启发,我们提出了Contrinet,这是一种强大的汇合三流网络,采用了"分裂和拼接"策略。该框架利用了带有专业解码器的统一编码器,每个编码器都涉及探索RGB-T SOD的不同子任务的不同子任务,从而增强了最终的显着性图预测。具体而言,Continet包括三个流:两个特定于模态的流探索RGB和热模态的线索,而第三个模态互补流则整合了两种模态的线索。 Continet提出了几个显着的优势。它在模态共享的联合编码器中结合了模态诱导的特征调制器(MFM),以最大程度地减少模式间差异并减轻有缺陷的样本的影响。此外,分离的流中的基础残差空间金字塔模块(RASPM)扩大了接受场,从而捕获了多尺度的上下文信息。此外,在模态融合流动流动中,一种模态感知的动态聚合模块(MDAM)从两个特定于模态特异性流中动态汇总了与显着性相关的提示。利用所提出的平行三流框架,我们进一步完善了从不同的流量通过流动融合策略得出的显着图,从而得出了最终预测的高质量,全分辨率的显着性图。为了评估我们方法的鲁棒性和稳定性,我们收集了全面的RGB-T SOD基准VT-IMAG,涵盖了各种现实世界中具有挑战性的场景。对公共基准和我们的VT-IMAG数据集进行了广泛的实验,表明,即使处理不完整的模态数据,Continet在共同和具有挑战性的情况下始终优于最先进的竞争者。代码和VT-IMAG将在以下网址提供:https://cser-tang-hao.github.io/contrinet.html。

索引术语 - 平衡对象检测;多模式融合; rgb-thermal;编码器。

一 介绍

显著性目标检测(Saliency Object Detection,简称 SOD)是众多领域(如计算机视觉、计算机图形学和机器人学)中的一项基础研究任务,其目标是在图像中精确定位那些能够吸引人类视觉注意力的像素级目标或区域。近年来,显著性目标检测已成功应用于众多下游领域 [3]、[4]、[5]、[6]。特别是在基于 RGB 的显著性目标检测任务中 [7]、[8],已经取得了重大进展。然而,尽管 RGB 模态提供了丰富的纹理和颜色信息,但它缺乏鲁棒性,并且很容易受到实际环境因素的影响。如图 1 所示,基于 RGB 的方法在具有挑战性的真实场景中难以获得可靠的显著性目标检测结果,这主要是因为光照条件不佳导致图像质量较低,例如存在强噪声、曝光不足、曝光过度以及复杂的背景等情况。为了解决这些局限性,研究人员已经做出了各种努力 [2]、[9]、[10],引入了辅助模态来弥补 RGB 模态的不足,重点关注 RGBDepth(RGB-D)和 RGB-Thermal(RGB-T)模态。

图1:对RGB-T SOD的已建立的RGB-T SOD网络架构(即(a)单流和(b)双流)的比较(即(a)单流和(b)双流)以及(c)中的提议。我们提出的三流范式采用了一种分裂和诱导的战略,该战略致力于对模式特异性提示的深入探索,同时有效地融合了模态融合信息,从而很好地处理了各种具有挑战性的场景(请参阅(D))。 MIA [1]和MIDD [2]分别对应于(a)和(b)的代表性方法。

在基于RGB-D的显著性目标检测中,深度图对于估计场景中物体与相机之间的距离至关重要。这种空间信息通过提供关键的位置和结构细节,提升了显著性目标检测的性能。然而,深度图很容易受到不良光照和恶劣天气等不利条件的影响,这限制了其在实际场景中的应用[11]、[12]、[13]。另一方面,与深度图不同,热成像模态对周围环境不敏感,并且能够有效地突出显著目标的轮廓结构。尽管如此,它无法捕捉到精细的纹理和细节。具体而言,热红外相机能够捕捉到温度高于绝对零度的物体所发出的热辐射,即使在具有挑战性的光照条件下也能提供有价值的物体信息(见图1)。因此,RGB和热成像模态的结合为复杂场景下的显著性目标检测提供了一个理想的解决方案。然而,由于数据特征的差异,直接将成熟的基于RGB-D的显著性目标检测模型应用于基于RGB-T的显著性目标检测任务,无法获得令人满意的结果。这项工作专注于基于RGB-T的显著性目标检测任务,旨在利用物体发出的热辐射的重要性以及RGB模态信息,在各种具有挑战性的场景中精确定位显著目标。

与包含丰富颜色和纹理细节信息的RGB模态相比,热成像模态的优势在于能提供关于温度变化的强烈对比信息[14]、[15]、[16]。这一发现促使了大量研究[2]、[17]、[18]去探究跨模态特征的相互作用与融合,却忽略了各模态内在的特定信息。因此,一个相关的问题出现了:是否有必要为基于RGB-T的显著性目标检测(SOD)设计一种专门的范式,以充分利用每种模态的独特特征呢?提出这个问题是因为,如图1底部所示的具有挑战性的场景,常常暴露出RGB和热成像这两种模态在为显著目标提供判别性线索方面的局限性。这进而导致聚合特征受到干扰,使得显著性目标检测的结果不尽人意。值得注意的是,在复杂的现实场景或成像过程中,由于强噪声、热交叉和恶劣天气等因素导致的模态缺陷所带来的挑战,在很大程度上被忽视了。要解决这些复杂问题,又引出了另一个具有挑战性的问题:我们如何开发一个适用于复杂场景实际应用的鲁棒性强的基于RGB-T的显著性目标检测模型呢?因此,要设计一个有效的基于RGB-T的显著性目标检测模型,就需要全面考虑在复杂场景下的鲁棒性,以确保即使在不太理想或动态变化的环境条件下,也能高效且准确地进行显著性目标检测。

从上述挑战来看,可以发现现有的基于RGB-T的显著性目标检测(SOD)方法通过使用双编码器来利用RGB和热成像模态信息,以提取各自的特征。基于不同的解码策略,这些模型大致可分为两种范式:单流范式和双流范式。图1(a)展示了单流范式(例如文献[1]、[17]、[18]中的方法),在这种范式中,多尺度特征的跨模态融合是在编码阶段进行的,随后由一个单一的解码器来预测最终的显著图。相比之下,图1(b)展示了像MIDD[2]和CGFNet[19]等方法所采用的双流范式。在这种范式中,两个并行的解码器分别从每种模态中重建与显著性相关的特征,然后将这些分层特征进行融合,以生成最终的显著图。尽管这些现有方法取得了显著的性能成果,但仍有一些挑战尚未解决。首先,单流架构难以处理有缺陷的输入,因为它主要侧重于融合模态互补特征,由于缺乏特定模态的监督,常常会导致不可靠的跨模态特征聚合,如图1(d)中MIA[1]方法生成的显著图所示。其次,在杂乱场景中的各种未知因素可能会导致显著目标出现缺陷,或者被单一模态所主导。双流架构虽然融合了两种模态的特征,但在处理模态差异以及减轻有缺陷模态的负面影响方面往往存在不足。如图1(d)中最后一组可视化结果所示,MIA[1]和MIDD[2]这两种方法都难以从相似的背景中准确地区分显著目标。受人类感知所具有的弹性和适应性的启发,这项工作提出了一种专门的基于RGB-T的显著性目标检测框架,该框架采用"分而治之"的策略,深入挖掘特定模态的信息,并有效地整合模态互补信息。

在人类的视觉感知中,大脑通过并行的信息流有效地处理多种感官输入[20],每条信息流对不同方面的信息进行解码,当某一种感官模态受损时能够进行补偿,从而保持对环境的整体感知[21]、[22]。如图1(c)所示,受这一认知过程的启发,我们引入了融合三流网络(Confluent Triple-Flow Network,简称CONTRINET),旨在通过将基于RGB-T的显著性目标检测(SOD)任务分解为两个子任务:特定模态信息挖掘和模态互补信息整合,来增强该任务的鲁棒性。首先,我们采用了一种模态共享联合编码器,通过共享的主干网络从双模态输入中提取复杂的多层特征,这与传统的双编码器有所不同。在这个统一的编码器中,我们提出的模态诱导特征调制器(Modality induced Feature Modulator,简称MFM)对两组多层特征进行优化和融合,在保留每个特征尺度上的跨模态一致性的同时,最大限度地减少冗余信息和模态差异。"分而治之"策略的核心在于解耦的信息流,这些信息流独立地探索特定模态信息和模态互补信息,以便在模态存在缺陷的情况下实现相互补偿。具体来说,我们的模态感知动态聚合模块(Modality-aware Dynamic Aggregation Module,简称MDAM)以动态加权的方式将来自特定模态信息流的与显著性相关的线索整合到模态互补信息流中,有选择地控制分层互补线索的贡献,以实现对显著目标的准确定位并减少偏差。CONTRINET的三流网络将我们提出的残差空洞空间金字塔模块(Residual Atrous Spatial Pyramid Module,简称RASPM)作为基本组件,该模块扩大了有效感受野,并在多个尺度上捕捉上下文信息。为了促进生成一致的显著特征,标签监督对三流网络的三个并行解码器进行校正。随后,采用一种流协同融合策略来生成综合的显著图,模拟人类的综合感知。这种方法有效地突出了显著目标,并减轻了在具有挑战性的场景中缺陷模态的负面影响,从而提高了基于RGB-T的显著性目标检测的鲁棒性和准确性。为了评估基于RGB-T的显著性目标检测模型的鲁棒性,我们引入了一个自行收集的VT-IMAG数据集作为基准测试平台,推动对鲁棒性架构的探索。大量实验表明,所提出的CONTRINET在三个公开基准数据集(即VT821[14]、VT1000[23]和VT5000[16])以及我们具有挑战性的VT-IMAG基准数据集上,显著优于当前最先进的方法。这项工作的主要贡献总结如下:

(1)我们引入了一种全新的"分而治之"策略,以解决当前基于RGB-T的显著性目标检测(SOD)模型鲁棒性较弱的问题。在此背景下,我们提出了融合三流网络(CONTRINET),该网络专门用于有效地融合模态互补线索,并深入挖掘特定模态的线索。

(2)我们在联合编码器中嵌入了模态诱导特征调制器(MFM),以有效地缩小模态差异,并过滤掉冗余或可能造成干扰的信息。与此同时,我们在模态互补信息流中设计了一个模态感知动态聚合模块(MDAM),以便动态地对来自特定模态信息流的与显著性相关的特征进行优先排序,同时减轻显著性偏差。

(3)我们提出了残差空洞空间金字塔模块(RASPM),它是我们并行信息流的基石,能够提供更大且紧凑的感受野。基于此,我们进一步引入了一种流协同融合策略,旨在实现精细、全面的显著图预测。

(4)我们提供了一个涵盖各种具有挑战性场景的综合基准测试,作为一个新的测试平台,用于对基于RGB-T的显著性目标检测进行可靠评估,为该领域做出了贡献。

二 相关工作

2.1 RGB显著对象检测

传统的显著性目标检测(SOD)方法主要依靠手工设计的特征(如颜色、纹理和边缘特征)[24]、[25]、[26]以及内在线索(如颜色对比度和边缘密度)[27]、[28]、[29]来预测区域显著性分数。然而,由于显著性图提取步骤既耗费人力又耗时,这些方法在泛化性和有效性方面存在局限性。近年来,深度学习技术的出现推动了计算机视觉和多媒体领域的重大进展。因此,当代基于深度学习的显著性目标检测方法广泛使用卷积神经网络(CNNs)[30]、[31]、[32]、[33]、[34],通过各种显著性模型生成逐像素的预测,取得了显著的成果。例如,侯等人[32]通过引入从深层到浅层侧边输出的额外短连接,增强了高层特征中的位置信息,从而提高了检测的准确性。同样,张等人[33]在U型网络中集成了金字塔注意力机制,以循环增强多尺度特征的表示能力。最近的显著性模型[35]、[36]、[37]、[38]、[39]通过各种优化策略融合多尺度上下文特征,取得了重大进展。例如,庞等人[40]对相邻层的特征进行聚合和交互,以增强多尺度上下文特征。张等人[39]提出了一种基于神经架构搜索(NAS)的新颖框架,能够自动搜索多尺度特征的最优融合策略,无需手动操作。关于基于RGB的显著性目标检测方法的更多见解,可以在最近的综述文章[7]、[8]中找到。

然而,实际应用中存在着诸如强噪声、低光照和复杂背景等挑战。例如,传统的基于RGB的显著性目标检测(SOD)方法在低光照条件下可能会失效,因为它们难以准确捕捉显著目标。这些挑战使得探索辅助模态成为必要,在此我们将其称为RGB-X显著性目标检测(例如,基于RGB-D和RGB-T的检测)。这项工作专注于基于RGB-T的显著性目标检测,旨在精确定位RGB和热成像这两种模态中都能体现的显著目标或区域。热成像模态的引入不仅缓解了上述挑战,还提高了我们的模型在恶劣环境中的鲁棒性,有助于在广泛的实际场景中实现更准确、可靠的显著性目标检测。

2.2 RGB-X显著对象检测

传感器的价格亲民且便于携带,这使得获取多模态数据变得更加容易,从而能够在复杂场景中利用这些数据来应对基于RGB的显著性目标检测(SOD)所固有的挑战。采用RGB-X显著性目标检测,尤其是基于RGB-D的显著性目标检测,已经越来越受到关注,这是因为深度传感器生成的深度图所提供的宝贵深度信息推动了基于RGB-D的显著性目标检测方法的发展[13]、[41]、[42],更多相关见解可在近期的文献综述[9]、[10]中找到。尽管深度图包含丰富的空间和结构信息,但在光照条件差和存在遮挡的环境中,它们很容易受到干扰。与此同时,基于RGB-T的显著性目标检测将RGB图像和热红外(T)图像相结合,利用了温度线索的互补优势。与深度信息相比,热信息在具有挑战性的环境中表现出更强的鲁棒性,这凸显了探索基于RGB-T的显著性目标检测的必要性。尽管研究界对基于RGB-T的显著性目标检测的兴趣日益浓厚,但在研究用于应对具有挑战性场景的鲁棒性显著模式方面仍存在空白。

传统的基于RGB-T的显著性目标检测(SOD)方法通常依赖于手工设计的特征。首个基于RGB-T的显著性目标检测数据集VT821是由王等人[14]在MTMR中建立的,他们提出了一种多任务流形排序算法来捕捉显著性线索。后续的研究包括屠等人[43]的工作,他们引入了一个中间变量来推断最优种子节点,以便基于多模态多尺度图进行流形排序。此外,屠等人[23]提出了一种协作图学习方法,该方法利用分层深度特征来联合学习图的亲和度和节点的显著性。他们还构建了一个更具挑战性的数据集VT1000。然而,这些尝试主要依赖于机器学习技术(例如,支持向量机[44]、排序模型[14]、[43]和图学习[23]),由于手工设计特征的语义表示能力有限,难以取得令人满意的性能。随着深度神经网络的应用,基于深度学习的方法[1]、[2]、[16]、[19]、[45]在基于RGB-T的显著性目标检测方面取得了重大进展。张等人[45]、[46]将基于RGB-T的显著性目标检测视为一个特征融合问题,并提出了两种基于卷积神经网络(CNN)的模型,从多尺度、多层次和多模态的角度来融合特征。与此同时,屠等人[16]提出了一种多交互双解码器网络,用于聚合跨模态特征和全局上下文信息,并且他们创建了一个名为VT5000的大规模基于RGB-T的数据集。此外,周等人[18]提出了一种双边反向融合方法,能够有效且一致地融合前景和背景信息的跨模态特征。霍等人[17]引入了一个上下文引导的跨模态融合模块来利用互补线索,并使用堆叠优化网络来增强显著区域。而且,屠等人[2]提出了一种多交互双流解码器,以从两种模态中捕捉多种类型的线索,而王等人[19]通过提出的交叉引导融合模块,实现了对单模态信息更全面的探索以及对跨模态信息更有效的整合。与他们不同的是,我们专注于充分利用RGB和热成像模态各自的特点,以实现鲁棒的基于RGB-T的显著性目标检测。我们提出了融合三流网络(CONTRINET),以更合理的方式探索面向显著性的特定模态信息和模态互补信息,该网络在各种具有挑战性的基准测试中表现良好。

2.3 我们的关键差异化因素

遵循"分而治之"的策略,我们的工作引入了融合三流网络(CONTRINET),该网络系统地探索了特定模态信息和模态互补信息。这种方法与最近的三流框架(如SPNet[47]和CIR-Net[48])有显著区别,后者主要是为基于RGB-D的显著性目标检测(SOD)任务量身定制的。下面,我们概述了CONTRINET的关键差异化因素,这些因素对于处理基于RGB-T的显著性目标检测任务所面临的独特挑战至关重要,在概念和实践上都比现有方法有所进步。(1)功能策略:与传统框架常常将额外的模态视为补充不同,CONTRINET从一开始就赋予RGB和热成像模态同等的重要性。这确保了对两种模态的全面利用,实现了动态交互和整体融合。这种策略超越了单纯的结构设计,是一种功能性方法,通过专门的处理路径来最大限度地发挥每种模态的优势并弥补其不足。(2)架构设计:CONTRINET与常见的做法大相径庭,常见做法是为每种模态使用单独的编码器,然后通过共享网络进行特征融合。而CONTRINET采用了一个统一的编码器,并与三个专门的解码器协同工作,每个解码器都专注于任务的一个特定方面。这种设计降低了复杂性并提高了效率,符合"分而治之"的理念,从而改进了特征融合和处理。(3)鲁棒感知:CONTRINET摒弃了传统上依赖单个解码器进行最终显著性预测的方式,而SPNet[47]和CIR-Net[48]等框架都具有这种特点。它引入了一种三流架构,其中每条流都处理特定的子任务,以并行地捕捉特定模态或模态互补的线索。CONTRINET还采用了一种流协同融合策略进行推理,确保了更精确和鲁棒的预测,尤其在处理那些可能使单个解码器设计不堪重负的多样且具有挑战性的场景时非常有效。(4)定制模块:CONTRINET整合了专门为基于RGB-T的显著性目标检测任务设计的定制模块(即模态诱导特征调制器(MFM)、残差空洞空间金字塔模块(RASPM)和模态感知动态聚合模块(MDAM))。这些模块对于使处理策略适应热成像数据带来的独特挑战至关重要,从而提高了特征融合的效果和效率。总之,虽然CONTRINET与SPNet[47]和CIR-Net[48]存在一定的相似之处,但在基于RGB-T的显著性目标检测任务中,CONTRINET通过有效应对热成像和RGB数据所带来的独特挑战,表现优于它们,从而有助于在广泛的实际场景中实现准确且鲁棒的预测。

三 研究方法

3.1 概述

背景。"分而治之"策略[49]是一项成熟的计算原则,它将一个复杂的问题分解为若干个更小、易于处理的子问题。然后,对每个子问题分别进行处理,再将各个子问题的解决方案合并起来,以解决最初的问题。这种策略通过将复杂的挑战分解为可处理的任务,简化了问题的解决过程。由于可以对各个子问题给予专门的关注,所以通常能得出更高效、更优化的解决方案。值得注意的是,人类的视觉系统很自然地运用了这一策略。大脑并不是同时处理整个场景,而是剖析视觉刺激的各个方面[21]。视觉通路的不同组成部分对特定的元素进行解码,比如颜色、形状或运动[50]。随后,这些经过分别处理的线索会被整合起来,以确保我们能对周围环境有一个全面的感知,即便在某一种感官模态受损的情况下也是v"分而治之"策略[49]是一项成熟的计算原则,它将一个复杂的问题分解为若干个更小、易于处理的子问题。然后,对每个子问题分别进行处理,再将各个子问题的解决方案合并起来,以解决最初的问题。这种策略通过将复杂的挑战分解为可处理的任务,简化了问题的解决过程。由于可以对各个子问题给予专门的关注,所以通常能得出更高效、更优化的解决方案。值得注意的是,人类的视觉系统很自然地运用了这一策略。大脑并不是同时处理整个场景,而是剖析视觉刺激的各个方面[21]。视觉通路的不同组成部分对特定的元素进行解码,比如颜色、形状或运动[50]。随后,这些经过分别处理的线索会被整合起来,以确保我们能对周围环境有一个全面的感知,即便在某一种感官模态受损的情况下也是如此。

**研究动机。**受人类视觉系统自适应的"分而治之"能力的启发,在人类视觉系统中,视觉通路的不同组成部分对特定元素进行解码,并将它们综合起来以实现全面感知,我们的目标是提高基于RGB-T的显著性目标检测(SOD)的准确性和鲁棒性。就像大脑系统地处理各种感官输入以理解一个场景那样,我们旨在研究基于RGB-T的显著性目标检测中每种模态所独有的内在特征。具体来说,RGB图像提供了详细的结构和纹理信息,但容易受到环境干扰。相反,热成像图像侧重于结构描绘,却牺牲了纹理细节,不过对环境变化(如光照条件)表现出更高的适应性。为了在复杂场景中准确地定位视觉上显著的目标,我们提出了两条核心原则:深入挖掘特定模态信息以及有效地整合模态互补信息。前者旨在抑制来自每种模态的噪声或误导性输入,而后者则确保显著性预测不会过度受单一模态的主导,从而构建一个更加平衡且鲁棒的模型。通过遵循这些原则,我们旨在显著提升显著性目标检测的性能质量。因此,这项工作引入了一种融合三流网络,在并行的三流框架内通过处理特定模态和模态互补的子任务,融入了我们的"分而治之"策略。这种设计利用了每种模态的优势,同时弥补了它们各自的不足,使得基于RGB-T的显著性目标检测在各种具有挑战性的场景中能够实现更准确、更具适应性的感知。

架构 。图2展示了我们所提出的融合三流网络(CONTRINET)的架构,其目的是将基于RGB-T的显著性目标检测(SOD)任务的最终预测分解为特定模态和模态互补的子任务。这种分解方式能够利用每种模态的独特优势,从而提高模型的准确性和适应性。具体而言,CONTRINET的主要架构包括:(i)一个具有共享主干的联合编码器,用于从双模态输入中提取多尺度的低级和高级特征,同时配备一个模态诱导特征调制器(MFM),以减少模态差异,并无缝整合来自两种模态的特征。(ii)两条特定模态信息流,专门用于优化每种模态特定的多尺度特征,旨在分别预测RGB域和热成像域的显著图。(iii)一条模态互补信息流,用于动态整合与显著性相关的线索,以生成一个模态互补的显著图。在这条信息流中,引入了一个模态感知动态聚合模块(MDAM),用于合并来自两条特定模态信息流的判别性线索,有助于推断出更一致的显著区域。(iv)在这些信息流中部署了一个残差空洞空间金字塔模块(RASPM),以提供更大但紧凑的感受野。同时,采用一种流协同融合策略,将这些信息流分别预测的结果进行合并,生成一个综合的显著图。遵循Res2Net50[34]架构,模态共享联合编码器从成对的RGB图像和热成像图像中提取分层特征,分别表示为,其中 表示特征级别。

图2。展示了所提出的融合三流网络(CONTRINET)的总体架构,该网络采用了高效的"分而治之"策略。CONTRINET包含三条主要的信息流:一条模态互补信息流,用于预测模态互补的显著图;还有两条特定模态信息流,分别用于预测RGB特定的显著图和热成像特定的显著图。两条特定模态信息流的联合编码器共享参数,并且整个框架可以进行端到端的训练。

3.2 模态诱导特征调制器

为了解决在极其复杂的环境下,基于RGB-T的显著性目标检测(SOD)中不可避免会遇到的两大挑战,即由于内在的模态差异而导致的不同模态特征难以合并的障碍,以及由有缺陷的输入所引发的噪声干扰问题,我们提议在模态共享联合编码器中引入一个模态诱导特征调制器(MFM)。通过这种方式,可以对在每个特征尺度上学到的特定模态模式进行深度优化和高效融合。如图3所示,模态诱导特征调制器(MFM)包含两个阶段:交叉引导的特征增强阶段和注意力感知的特征融合阶段。

图3:模态引起的特征调制器(MFM)的结构图。

交叉引导的特征增强 。为了在保留不同模态判别能力的同时,减轻它们之间的差异,我们提出了一个交叉引导的特征增强模块。以模态共享联合编码器提取得到的作为输入,我们首先采用一组常规操作将它们归一化为,从而通过对RGB和热成像特征进行加权来对跨模态的长距离依赖关系进行建模,进而确定需要进行特征互补的区域。此外,我们采用残差连接来保留每种模态的原始信息。因此,增强后的RGB和热成像特征,分别记为,其计算公式如下:

为了突出特定模态特征中的显著内容,有必要根据这些特征自身的特点以及它们在编码判别性信息方面的贡献来对其进行重新校准。为此,我们沿着通道维度采用了挤压激励(Squeeze-Excitation,简称SE)操作,这一操作不仅能够选择具有代表性的通道,还能抑制模态之间的噪声,从而在特征层面上增强去噪效果。挤压激励操作是通过两个连续的1×1卷积操作来实现的,其设计目的是先减少通道维度,然后再扩展通道维度即(),从而能够对特征通道进行动态重新校准。从数学角度来看,这种去噪和重新校准操作的结构如下:

其中Cse​(⋅)表示挤压激励(SE)操作,⊗表示逐元素相乘,S(⋅)表示 sigmoid 函数。Cse​(⋅)的归一化输出可以看作是通道注意力图,它反映了 RGB 和热成像特征中不同通道的重要性。总之,这一阶段增强了 RGB 和热成像特征的显著性表示,起到了区域特征补偿预处理步骤的作用。

注意力感知的特征融合。鉴于来自不同模态的线索已得到改善(例如​),从逻辑上来说,我们要增强跨模态特征的兼容性,并实现一致的融合。由于 RGB 和热成像特征都为显著性目标检测(SOD)提供了重要的判别性信息,我们首先采用一种可行的拼接特征聚合策略,将​进行整合,从而得到初步的融合特征。然而,简单的拼接操作没有考虑到 RGB 和热成像图像中特定模态信息的独立性和不一致性。为了解决这个问题,我们从空间注意力机制 [51] 中获得灵感,对特征​同时沿通道轴引入全局平均池化A(⋅)和最大池化M(⋅)操作,以便计算空间统计信息来定位显著目标。然后,我们将并行的池化结果进行拼接,以增强空间结构特征。如图 3 右侧虚线框中所示,经过调制的输出Es​是通过以下方式得到的

其中S(⋅)表示 Sigmoid 激活函数,[⋅;⋅]表示拼接操作。

图2展示了模态诱导特征调制器(MFM)的构建过程,它以由粗到精的方式,实现了来自模态共享联合编码器的两组多级多模态特征的自适应融合。具体来说,在第i个特征层级,当前输出会与第i - 1个MFM的前一个输出进行拼接。然后,这个拼接后的特征会经过一个卷积核大小为3×3的卷积层,从而得到第i个特征层级的最终融合特征。重要的是,当前经过调制的特征会被传递到第i + 1层,以探索并整合跨层级和多尺度的线索。当i = 1时,只有当前特征会被输入到3×3卷积层中。在这里,我们特意选择了一个具有挑战性的低光场景,以一个反光的交通锥作为显著目标,来展示所提出的MFM的有效性。在这个特定场景中,从多模态的角度来看,可见区域表现出互补性。源自联合编码器浅层的RGB和热成像特征,分别记为,如图4所示。在经过交叉引导的特征增强阶段后得到的增强特征,有效地抑制了背景中的噪声,同时进一步增强了前景中的激活值。中的互补性仍然很明显。在经过注意力感知的特征融合阶段后,模态互补融合特征\(E^s\)表现出了良好的平衡激活,聚焦于整个交通锥。这展示了MFM利用特定模态特征中的互补信息,并逐步减轻模态之间固有差异以构建模态互补融合特征的能力。

**图4:**在模质诱导的特征调制器中的特征演化的可视化。

3.3 残差空洞空间金字塔模块

鉴于从模态共享联合编码器中获取了分层的判别性特征,我们的主要目标是最大限度地发挥这些特征的潜力,以增强多模态表示在生成精确显著图方面的有效性。众所周知,局部和全局语义信息在显著性目标检测(SOD)任务中都起着至关重要的作用。网络的浅层负责学习局部语义信息,而全局信息则取决于网络的感受野大小。然而,采用串行卷积操作的模态共享联合编码器无法捕捉到丰富的上下文信息。此外,仅使用3×3卷积的局限性阻碍了有效感受野的扩展[52],从而对在预测的显著图中获取精细结构和清晰边界产生了不利影响。为了解决这些问题,我们提出了一个轻量级的残差空洞空间金字塔模块(RASPM),将其作为我们专门设计的三流网络中的核心组件,以便从多个感受野和特征尺度有效地捕捉紧凑的上下文信息。

如图5所示,残差空洞空间金字塔模块(RASPM)由四个用于捕捉上下文特征的并行分支以及一个旨在保留原始特征的残差分支组成。每个分支都对应一个特定的特征尺度。具体来说,每个分支中都包含一个1×1卷积层,用于减少通道数。此外,第k个分支(其中()配备了一个1×(2k - 1)的非对称卷积,随后是一个(2k - 1)×1的非对称卷积,以降低计算量。考虑到不同尺度特征之间的相关性以及它们可能带来的相互增益,我们引入了跨分支的捷径连接,以便从下到上整合特征,并避免信息丢失。例如,对于RGB模态流的第i个残差空洞空间金字塔模块,其输入表示为,四个分支学习到的中间特征定义如下:

其中表示卷积核大小为的堆叠卷积操作。为了在不牺牲特征分辨率的情况下获得更大的感受野,我们在四个并行分支中引入了膨胀率为2k - 1的空洞卷积操作,从而形成了一个空洞空间金字塔。随后,将四个分支的输出进行拼接,然后通过一个3×3卷积进行处理,以便对它们进行自适应重新加权并减少通道数。最后,通过多尺度特征与原始特征的残差组合,生成包含丰富上下文信息的重构特征,其定义如下:

其中表示膨胀率为2k - 1的3×3卷积。值得注意的是,在我们的残差空洞空间金字塔模块(RASPM)中,所有卷积操作之后都紧接着进行批量归一化处理。

通过这种方式,多尺度特征集通过 RGB 模态流和热成像模态流以逐层的方式进行组合。图 2 展示了从特定模态的 RGB 流和热成像流中获取的过程,如下所示:

其中表示2倍上采样操作,表示拼接操作。随后,将得到的整合到模态互补流中,以提供动态选择所需的与显著性相关的信息,这部分内容将在3.4节中进行讨论。

**图5:**残余空间金字塔模块(RASPM)的结构图。

3.4 模态感知动态聚合模块

如图2所示,我们利用模态共享联合编码器和模态诱导特征调制器(MFM)来提取三组多级特征。因此,引入了三条不同的信息流,每条信息流都有其各自的职责,它们自顶向下逐步聚合特征,目的是恢复完整的显著目标。考虑到在现实场景中,具有挑战性的环境可能会对RGB和热成像输入的质量产生影响,开发一个强大的基于RGB-T的显著性目标检测(SOD)模型至关重要,该模型需能够有效减轻来自质量较差模态的干扰。然而,直接且同等地组合来自不同模态的信息可能会导致结果难以控制且不一致。为了应对这一挑战,我们在融合三流网络(CONTRINET)中引入了一个模态感知动态聚合模块(MDAM),以动态加权的方式,将从RGB模态流和热成像模态流中挖掘出的有用线索整合到模态互补流中。

如图6所示,给定已获取的多级特征集,我们首先通过乘法运算和拼接操作来进行初始的特征交互与融合,从而得到聚合后的特征:

根据经验,RGB图像包含丰富的颜色和纹理细节,而热成像图像可以突出显示低质量RGB图像中模糊区域的轮廓和细粒度纹理。因此,我们设计了一个注重细节的增强分支,并将其应用于,通过强调纹理和结构变化显著的区域来引导清晰的整体拓扑结构的恢复。这个注重细节的增强过程定义为,其中表示Sigmoid激活函数。对于包含额外语义上下文线索的,它直接与整合,以纳入区域级语义补偿。这里,,它们被称为模态感知显著特征。随后,我们通过自适应地分配这两个特征的权重来进行动态聚合,以充分利用成对的特定模态流之间的内在上下文相关性,从而减少偏差。这个过程如下所示:

动态权重α和β的计算如下:

其中表示全局平均池化。表示两个连续的全连接层,它们逐步优化特征以进行动态加权,而表示Softmax函数。动态权重是根据输入的跨模态特征来确定的。此外,我们通过施加和为一的约束()来压缩学习空间,这有助于模态感知动态聚合模块(MDAM)的学习。总体而言,MDAM的过程是可学习的,它根据所学习到的补偿需求来控制不同模态互补信息的贡献,从而即使在高度复杂的场景中也有助于准确地恢复完整的显著目标。

**图6:**模态感知动态聚合模块(MDAM)的插图。

3.5 总体损失功能

通过构建三条精细的信息流,我们建立了一个端到端可训练的融合三流网络。这个框架分别从特定模态的RGB/热成像流以及模态互补流中得出三个预测结果。更具体地说,每条流中最后一层的重构特征是通过1×1卷积、上采样操作和Sigmoid函数得到的,从而产生单独的显著图。这里,对应于特定模态的预测结果,而代表模态互补的预测结果。此外,通过采用流协同融合(即加法操作),我们将上述重构的预测结果进行组合,以生成一个经过优化的、全面的输出,记为,它可以被视为我们的融合三流网络(CONTRINET)的最终显著图。为了针对特定模态信息的保留和模态互补信息的整合来优化所提出的融合三流网络(CONTRINET),我们为特定模态流和模态互补流提供了一个监督信号。考虑到从文献[36]中借鉴而来的预测显著图,我们采用加权二元交叉熵(wBCE)损失和加权交并比(wIoU)损失 的组合来对它们施加约束。总损失的计算公式如下:

G表示地面真相。

四 实验

4.1 实验设置

4.1.1 数据集

我们在三个广泛使用的RGB-T基准数据集以及我们最近引入的具有挑战性的基准数据集上进行了大量实验,以全面展示我们的融合三流网络(CONTRINET)在各种具有挑战性的场景下的鲁棒性。

公共数据集。目前有三个可公开获取的用于RGB-T显著性目标检测(SOD)任务的基准数据集:VT821 [14],该数据集包含821对经过手动配准的图像;VT1000 [23],由1000对通过高度对齐的RGB相机和热成像相机拍摄的相对简单场景的图像对组成;以及VT5000 [16],它提供了5000对高分辨率、多样化且偏差极小的图像。为了确保比较的公平性,我们采用了与文献[2]相同的训练方案,即从VT5000数据集中选取相同的2500对图像用于训练,而其余的图像,再结合VT821和VT1000数据集的图像,则用于测试。

**所提出的VT-IMAG数据集。**为了增强现有RGB-T显著性目标检测(SOD)算法在各种真实场景中的鲁棒性并拓宽其应用范围,我们引入了一个更具挑战性的数据集,名为VT-IMAG。该数据集包含536张RGB图像及其对应的热成像图。为了确保数据的广泛多样性和全面覆盖性,我们没有自行拍摄RGB-T图像,而是从自动驾驶领域中常用的一个RGB-T语义分割数据集[15]和一个RGB-T目标检测数据集[73]的选定样本中精心挑选了配准良好的RGB-T图像对。图像选择过程中,由四位观察者根据第一印象独立识别出最显著的目标,最终通过达成共识来确定选择结果。每一对选定的RGB-T图像都至少包含一个在RGB和热成像两种模态下都很显著的目标。专业标注人员逐像素地精心标注了用于显著性目标检测的真实掩码。

构建VT-IMAG数据集的主要目的是推动RGB-T显著性目标检测(SOD)方法的发展,并助力这些方法在实际场景中的应用部署。该数据集克服了现有数据集(即VT821、VT1000和VT5000)的局限性,这些现有数据集大多由简单样本和常见环境组成,并不适合用于分析深度学习模型的鲁棒性。为了解决这一问题,我们提出了VT-IMAG数据集,它具有高质量的标注,涵盖了多种物体类型以及在监控和自动驾驶中常见的各种场景(例如,车辆、行人和路障)。如图7内圈所示,该数据集的结构得到了清晰的描述,根据一天中的不同时段,VT-IMAG中的536对配准图像被分为两类:白天和夜晚。为了鼓励真正的目标检测学习,而不是仅仅记住目标的位置,该数据集提供了显著目标位置和大小的广泛分布。如图7中圈所示,该数据集对总共599个目标进行了标注,分为五类:大显著目标(BSO)、小显著目标(SSO)、多个显著目标(MSO)、中心偏置(CB)和跨图像边界(CIB)。此外,如图7外圈所示,考虑到图像采集过程以及自然环境中存在的各种干扰因素,所有536对配准图像都在七个具有挑战性的子场景下进行了标注:热交叉(TC)、图像杂乱(IC)、失焦(OF)、雨天(RD)、雾天(FD)、强噪声(SN)和相似外观(SA)。图7总结了所提出的VT-IMAG数据集中的属性分布情况。

图7:VT-IMAG中挑战的分布,包括时间段(内圆),对象特征(中圈)和极端场景(外圈)

4.1.2 评估指标

4.1.3 实施详细信息

所提出的方法基于PyTorch平台实现,使用单块NVIDIA GeForce RTX 3090 GPU进行计算。在训练时,骨干网络使用在ImageNet数据集上预训练的模型进行初始化 [79],而其他模块的其余参数则设置为PyTorch的默认值。输入的RGB图像和热成像图像被调整为352×352的尺寸,并采用了多种增强技术,如随机翻转、旋转和边界裁剪,以防止过拟合。网络使用Adam优化器进行训练,批量大小设置为16,初始学习率为5e - 5,并采用余弦学习率调度策略。最终模型在100个训练周期内收敛。在测试阶段,预测的显著图会被调整回原始尺寸,并将三个并行显著预测结果进行融合,以此作为最终预测结果,从而实现高质量的显著性目标检测(SOD)性能。

4.2 与最新方法的比较

我们将所提出的融合三流网络(CONTRINET)与27种最先进的方法进行了比较,其中包括10种基于卷积神经网络(CNN)的RGB-D显著性目标检测(SOD)方法(即S2MA [56]、JL-DCF [57]、HAIN [58]、SPNet [47]、DCMF [42]、CIR-Net [48]、TBINet [59]、RAFNet [11]、PopNet [60]、HiDAnet [61]),3种传统的RGB-T显著性目标检测方法(即MTMR [14]、M3S-NIR [43]、SDGL [23]),以及10种基于CNN的RGB-T显著性目标检测方法(即ADF [16]、MIDD [2]、CSRNet [17]、CGFNet [19]、MMNet [62]、ECFFN [18]、MIA [1]、OSRNet [63]、LSNet [64]、CAVER [65])。我们使用VGG16 [30]和Res2Net50 [34]作为骨干网络来评估所提出的融合三流网络(CONTRINET),分别记为CONTRINET16和CONTRINET50。为了克服RGB-T显著性目标检测的性能瓶颈,我们引入了CONTRINET⋆,它采用了更强的骨干网络------Swin Transformer [55]作为编码器。我们将CONTRINET⋆与近期基于Transformer的多模态方法进行比较,即TriTransNet [66]、SwinNet [67]、HRTransNet [68]和XMSNet [69]。为了进行公平比较,RGB-D显著性目标检测方法在RGB-T数据集上按照其默认设置重新进行训练,而RGB-T显著性目标检测方法所提供的显著图则直接用于比较。

4.2.1 定量比较

表1总结了在三个基准数据集上使用五种评估指标进行的定量比较结果。所提出的融合三流网络(CONTRINET)大幅超越了三种传统方法(即文献[14]、[23]、[43]),并且与所有基于卷积神经网络(CNN)的最先进方法相比,展现出了具有竞争力的性能,在大多数评估指标上都取得了最佳结果。特别是,CONTRINET50在VT821数据集上表现出了显著的优越性,该数据集相比其他两个数据集包含更多干扰信息。与表现第二好的方法相比,CONTRINET50在F指标()上至少提高了1.2%,在加权F指标()上提高了1.2%,在E指标()上提高了1.1%,在平均绝对误差(M)得分上提高了10.0%。我们还重新训练了七种最先进的RGB-D显著性目标检测(SOD)模型,并将它们扩展应用于RGB-T显著性目标检测任务。然而,大多数RGB-D方法表现不佳,性能的大幅下降表明这两项任务并非完全兼容。此外,CONTRINET的更强版本,即CONTRINET⋆,与近期基于Transformer的方法相比具有绝对优势,尽管近期基于Transformer的方法HRTransNet [68]和XMSNet [69]与基于CNN的最先进方法相比已经取得了优异的性能。此外,我们将所提出的CONTRINET与近期公开的最先进的RGB-T显著性目标检测方法进行了复杂度比较,结果如表2所示。在不同的骨干网络下,CONTRINET的模型参数数量相对较少,并且具有具有竞争力的计算效率。与现有在双流框架中采用特定模态编码器的方法不同,我们的CONTRINET的有效性和高效性源于所提出的"分而治之"策略,这一策略在未来实现更高效、更稳健的RGB-T显著性目标检测工作中值得更多关注。

**表1:**VT821 [14],VT1000 [23]和VT5000 [16]中RGB-D/RGB-T SOD中最新的最新方法的比较。公制的使用↑/↓表示较大/较小的值表示更好的性能。前三个结果以特定的顺序突出显示:红色以获得最佳结果,绿色为第二,蓝色,第三最好的蓝色。 Continet16和Continet50分别表示VGG主链[30]和Resnet Backbone [34]分别为编码器。 Continet⋆表示使用Swin-Transformer [55]作为编码器。

**表2:**比较一些最近公开可用的最新RGB-T SOD方法的复杂性。

4.2.2 定性比较

图8展示了近期具有代表性的RGB - T显著性目标检测(SOD)方法生成的显著图,呈现了它们在几种具有挑战性场景下的表现:强噪声(第一行)、热交叉(第二行)、过度曝光(第三行)、复杂背景(第四行)、恶劣天气(第五行)以及多目标(第六行)。现有方法无法确保低质量和有缺陷的模态数据的结构完整性,而我们的CONTRINET通过三流范式所提供的强大的特定模态挖掘和互补功能做到了这一点。此外,在第四行的复杂背景中,竞争对手无法定位显著目标,而我们的模型借助所提出的模态感知动态聚合模块(MDAM)对显著相关线索的动态利用,能够准确识别出具有清晰边界的显著目标。在多目标场景中,我们的模型有效减少了遗漏并防止了目标粘连,这主要得益于所提出的残差空洞空间金字塔模块(RASPM)对预测的显著目标的细化,从而产生更清晰的边界。再者,正如第五行所示,CONTRINET对恶劣天气条件表现出鲁棒性,这得益于所提出的模态诱导特征调制器(MFM)对多模态信息的有效细化和整合。总体而言,CONTRINET生成的显著图更理想,目标完整且边界精确,证实了其在各种场景和目标下的鲁棒性和有效性。

**图8:**可视化结果的定性比较在以下列中显示:RGB图像,热图像,地面真相和十种最先进的RGB-T SOD方法的预测(缩放以进行更好的比较)。

4.3 鲁棒性分析

为了展示所提出的融合三流网络(CONTRINET)卓越的鲁棒性,我们在VT-IMAG数据集上评估了不同深度学习模型的性能。表3给出了近期最先进的RGB-T显著性目标检测(SOD)方法的定量比较结果,这些方法包括ADF [16]、MIDD [2]、CSRNet [17]、CGFNet [19]、OSRNet [63]、LSNet [64]、CAVER [65]、TriTransNet [66]、SwinNet [67]、HRTransNet [68]以及XMSNet [69]。考虑到训练数据与现实场景之间的差异,模型对未知的具有挑战性情况的敏感度能更好地反映其鲁棒性。因此,为了确保公平比较,所有模型仅在清晰数据和简单场景(即VT5000的训练集)上进行训练,并在VT-IMAG数据集中各种现实中具有挑战性的情况下对其零样本学习的鲁棒性进行评估。如表3所示,所提出的融合三流网络(CONTRINET)显著优于所有竞争方法,在五个评估指标上均展现出持续且显著的性能提升。例如,"CONTRINET⋆"取得了最佳性能(即\(S_m\):0.868,\(F_{\beta}\):0.832,\(F^w_{\beta}\):0.804,\(E_m\):0.943,以及\(M\):0.021),与表现第二好的方法相比,相对提升分别达到了1.9%、8.2%、9.0%、3.1%和22.2%。这些结果验证了所提出的融合三流网络(CONTRINET)在处理各种未知的具有挑战性场景时具有卓越的通用性。

图9展示了针对VT-IMAG数据集中不同属性的可视化结果对比,这些属性代表了自动驾驶中会遇到的具有挑战性的场景。这些定性结果直观地证明了所提出的融合三流网络(CONTRINET)在常见和未知场景下的鲁棒性。值得注意的是,即使存在如失焦(第十行)、雨天(第十一行)和雾天(第十二行)等意外的干扰因素,我们的方法也能准确识别出结构完整且边界清晰的显著目标,而其他竞争方法在面对未知干扰时,要么过于敏感,要么无法定位显著目标。实际上,对于图9中展示的大多数具有挑战性的场景,RGB模态提供的显著性线索有限,而热成像模态则发挥了重要作用,尤其是在恶劣天气条件和夜间低光照环境下。我们的融合三流网络(CONTRINET)能够预测出可靠的结果,这得益于所采用的强大的"分而治之"策略,该策略有效地利用了RGB-T显著性目标检测中特定模态和模态互补的线索。

**表3:**与拟议的VT-IMAG上的RGB-T SOD方法的最新公开状态进行比较。 ↑/↓对于公制表示较大/较小的值更好。

**图9:**我们提出的方法的定性比较以及最新的关于拟议VT-IMAG中各种挑战的公开可用的RGB-T SOD方法(缩放以进行更好的比较)。

4.4 消融研究

所有消融研究实验均使用Continet50进行。最初,将类似于Unet的单流模型构建为天真的基线,其中直接添加了两种模式中编码器的每个层的特征。

表4展示了这种强大的基线(称为" 1号")的有效性,该基线是进一步改进绩效的可靠基础。

**表4:**对不同组件的消融分析以及在三个数据集上的各种设计选择。

4.4.1 MFM的有效性

在我们提出的融合三流网络(CONTRINET)中,模态诱导特征调制器(MFM)旨在充分利用模态之间的互补信息,并实现跨模态特征的自适应融合。MFM的处理过程可分为两个步骤:交叉引导特征增强(CFE)和注意力感知特征融合(AFF)。我们进行了全面的消融分析,以评估MFM的内部设计选择,结果如表4所示。具体来说,"编号2"表示仅包含AFF的MFM,而"编号3"表示仅包含CFE的MFM。结果表明,每个步骤都在一定程度上提升了显著性目标检测(SOD)的性能。将"编号2/3"与"编号4"进行比较,我们发现这两个独立的组件能够协同增强网络的鲁棒性。这可能是因为前者能够利用来自不同模态的互补信息,而后者具备自适应融合跨模态特征的能力。在所有数据集上持续的性能提升证实了我们结构设计的有效性。MFM在我们的融合三流网络(CONTRINET)中整体有效性的进一步证据如图10所示(即图(d)与图(g))。此外,在图4中,我们展示了一个由MFM输出的特征演变示例,表明所提出的模态诱导特征调制器不仅充分利用了互补信息,还减少了模态之间的固有差异。

图10:消融研究的可视化示例。 (a)RGB地图。 (b)热图。 (c)地面真相。 (d)Continet(W/O MFM)。 (e)Continet(W/O RASPM)。 (f)Continet(W/O MDAM)。 (g)Contrinet(完整模型)。

4.4.2 RASPM的优势

残差空洞空间金字塔模块(RASPM)是三流中定制解码器的关键组成部分。如表4所示,与"编号6"相比,"编号5"较差的结果突显了RASPM的不可或缺性。如图10所示(即图(e)与图(g)),通过引入RASPM,显著目标能够以完整的结构和清晰的边界被突显出来。为了进一步验证RASPM的优势,我们用其他用于多尺度特征学习的方法来替代它,这些方法的模型参数数量和计算成本都相当,结果如表5所示,具体包括普通卷积、金字塔池化模块(PPM)[80]和空洞空间金字塔池化模块(ASPP)[81]。值得注意的是,"编号1"表示一个带有类似残差块(ResBlock)[31]跳跃连接的\(3×3\)卷积层。PPM [80]和ASPP [81]被广泛应用于显著性目标检测(SOD)任务中,它们通过不同的分支来扩大感受野并增强多尺度特征表示。尽管这些模块的作用与RASPM类似,但当它们被集成到我们的融合三流网络(CONTRINET)中时,表现欠佳,这有力地证实了RASPM的优越性。此外,在一个实验中,我们使用了相同内核大小的普通卷积操作,即"编号4",以验证空洞卷积操作的有效性。"编号5"和"编号4"的比较证实了,配备完整版本RASPM的模型取得了更优的性能。这一现象可以归因于空洞卷积比普通卷积能够获得更大的感受野,从而有助于提取多尺度的上下文信息。

表5:将提议的RASPM与三个数据集上的其他替代方案进行比较。

表6:在三个数据集上使用不同的丢失函数的拟议continet比较。

4.4.3 MDAM的有效性

模态感知动态聚合模块(MDAM)的提出是为了将从RGB模态流和热成像模态流中挖掘出的有用线索整合到模态互补流中。为了评估其影响,我们进行了一项消融研究,从模态互补流中移除MDAM,在表4中这被称为"编号6"。与"编号9"相比,结果表明MDAM在多层上融合不同模态的互补特征方面发挥着重要作用,从而提升了显著性检测的效果。此外,为了验证动态聚合机制的有效性,我们在"编号7"中将可学习的动态权重\(\alpha\)和\(\beta\)设置为固定值1。虽然这种固定策略在VT1000数据集上的表现优于其他策略,但在更具挑战性的VT821和VT5000数据集上,其表现比动态策略要差。出现这种差异的原因是,固定融合策略在处理低质量数据时没有考虑到不同模态的贡献。为了进一步阐明MDAM中各个组件的影响,我们引入了一个新的基线模型"编号8",该模型在保留MDAM其他动态元素的同时,去除了注重细节的增强(DoE)部分。结果显示,去除DoE后,MDAM在所有评估指标上的有效性都略有下降,这证实了DoE在优化RGB特征以增强我们模型的显著性检测能力方面的额外价值。这些发现强调了动态聚合模态感知特征对于准确的显著目标定位的重要性。此外,为了更直观地理解MDAM在我们的融合三流网络(CONTRINET)中的整体效果,我们在图10中对消融研究的结果进行了可视化(即图(f)与图(g))。

4.4.4讨论损失功能

在我们的模型中,我们采用了混合损失函数,它由第3.5节中提到的加权二元交叉熵(wBCE)损失和加权交并比(wIoU)损失组成。为了评估其有效性,我们对使用单一损失函数进行训练的性能进行了评估,具体来说就是单独使用wBCE损失函数或单独使用wIoU损失函数。表6表明,混合损失函数是我们的融合三流网络(CONTRINET)取得稳健性能的关键因素。wBCE损失函数有助于提高\(S_m\)指标和降低M指标(平均绝对误差),而wIoU损失函数则有助于提升\(F_{\beta}\)指标和\(E_m\)指标的得分。综合考虑,我们采用wBCE损失函数和wIoU损失函数的混合作为默认设置,以优化所提出的融合三流网络(CONTRINET)。

4.4.5流动融合的分析

如第二部分所述。 3.5,Continet中的三个流量通过使用"分裂和诱使"策略,产生了单独的显着图,称为MR,MT和MS。为了提高在复杂场景中脊髓的准确性和弹性,采用流动融合策略来获得最终预测的高质量显着性图。表7列出了各种显着图及其组合的定量比较。尽管MR,MT和MS在不同地区具有自己的优势和缺点,但我们的最终MF有效地结合了它们的优势并抑制了缺点,从而带来了更清晰的边缘和完整的结构,从而改善了结果。这突出了提议的流程融合策略的优势性质,以实现对公共显着物体的准确分割。此外,图11中的定性比较表明,有效的流动融合策略可显着提高最终的RGBT显着性能,从而抑制了无关的区域并改善了不明显的预测。

表7:通过三个数据集上不同流量预测的显着图的性能比较。

**图11:**模型不同流动预测的显着图的比较可视化(缩放以进行更好的比较)。

4.4.6评估框架配置

如表8所示,我们进行了广泛的消融研究,以评估融合三流网络(CONTRINET)中各种框架配置的影响。具体而言,我们分析了一种模态共享编码器,它通过对所有模态使用统一的编码器来简化模型("编号1"),并将其与用于单独处理不同模态的双编码器设置("编号2")进行对比。此外,我们还研究了各种解码器配置:单一的模态互补流("编号3")、双特定模态流("编号4")以及所有流的完全集成("编号5")。对比"编号1"和"编号2"可以发现,模态共享编码器不仅在性能上与双编码器相当甚至更优,尤其是在VT821数据集上表现出显著的优势,而且还大幅减少了模型参数的数量(即3477万个参数对比5844万个参数)。关于解码器配置,虽然"编号3"提供了一个可靠的基线,但"编号4"中集成的特定模态流显著提升了模型性能,尤其是在精度和误差指标方面。"编号5"中所有流的全面集成在所有评估指标和数据集上始终能产生最高的性能表现。这证实了我们"分而治之"策略在提高框架的整体鲁棒性和准确性方面的有效性,从而展示了其在熟练处理复杂的RGB-T显著性目标检测(SOD)任务方面的潜力。

**表8:**在三个数据集上,提出的continet与不同的框架配置的比较。

4.5故障案例

在前面的章节中,通过各种定量和定性实验,已证实了所提出的融合三流网络(CONTRINET)的有效性和鲁棒性。尽管融合三流网络在实现稳健的RGB-T显著性目标检测(SOD)方面取得了令人满意的成果,但仍有进一步提升的空间。图12展示了几个典型的失败案例。值得注意的是,在存在大量干扰信息的高度复杂场景中,融合三流网络无法准确地定位显著目标。例如,在案例(a)中,存在过度曝光的情况,由于黑暗中迎面驶来的汽车发出强烈的光线,该模型难以提取出显著目标。此外,在背景错综复杂的场景中(如案例(b)和(c)),我们的模型在捕捉结构完整的显著目标方面也有所欠缺。在案例(b)中,采用"分而治之"策略的三流网络成功地定位了目标,但无法进行完美的分割,这就需要提高对更精细的目标结构和边界细节的辨别能力。案例(d)表明,我们的模型倾向于预测相对较大的显著目标,并且严重依赖输入的RGB-T图像对的质量,当热成像信息具有误导性时,就会导致对显著区域的错误预测。总之,在现实世界中实现稳健的RGB-T显著性目标检测所面临的不确定性、模糊性和误导性等挑战,值得进一步深入研究。

图12:来自提议的VT-IMAG(Zoomedin以进行更好比较)的故障案例。

五 结论

在本文中,我们提出了融合三流网络(CONTRINET),这是一种新颖的融合三流网络,它将"分而治之"策略融入到用于RGB-T显著性目标检测(SOD)任务的稳健框架中。融合三流网络(CONTRINET)由一个统一的编码器和三个专门的解码器组成,这些解码器处理不同的子任务,包括学习面向显著性的特定模态表示和模态互补表示,从而为RGB-T显著性目标检测实现更全面、更具弹性的感知。融合三流网络(CONTRINET)中精心设计的组件展现出了强大的能力,既能动态整合模态互补信息,又能专注于对特定模态信息的深度挖掘,减少有缺陷模态的干扰,使其对具有挑战性的场景具有很高的鲁棒性。此外,为了评估融合三流网络(CONTRINET)的鲁棒性和通用性,我们构建了一个新的综合性RGB-T显著性目标检测基准数据集,名为VT-IMAG,其中包含各种具有挑战性的场景,可作为验证不同模型鲁棒性的测试平台。大量的实验结果证明了所提出的融合三流网络(CONTRINET)在处理极具挑战性场景中的显著性目标检测问题时的天然优势。未来,将融合三流网络(CONTRINET)扩展为一种灵活的架构,使其能够处理RGB-X数据并在具有挑战性的场景中提升显著性目标检测性能,这将是很有吸引力的研究方向。

相关推荐
大囚长1 分钟前
deepseek+ansible实现AI自动化集群部署
人工智能·自动化·ansible
程序边界1 分钟前
AI+游戏开发:如何用 DeepSeek 打造高性能贪吃蛇游戏
人工智能·游戏
CodeJourney.10 分钟前
光储直流微电网:能源转型的关键力量
数据库·人工智能·算法·能源
艾思科蓝 AiScholar13 分钟前
【 IEEE出版 | 快速稳定EI检索 | 往届已EI检索】2025年储能及能源转换国际学术会议(ESEC 2025)
人工智能·计算机网络·自然语言处理·数据挖掘·自动化·云计算·能源
Fulima_cloud13 分钟前
智慧锂电:开启能源新时代的钥匙
大数据·人工智能·物联网
GUOYUGRA13 分钟前
高纯氢能源在线监测分析系统组成和作用
人工智能·算法·机器学习
沸点小助手1 小时前
Remote-SSH × 自定义模型 | Trae 体验活动 No.1
人工智能
꧁༺△再临ཊ࿈ཏTSC△༻꧂1 小时前
【数码科技】文心一言4.0 VS DEEPSEEK V3
人工智能·文心一言
明月与玄武1 小时前
AI把汽车变成“移动硅基生命体“
人工智能·汽车
阿噜噜小栈1 小时前
如何用AI制作我们记忆中的乡村夜景
人工智能·经验分享·笔记