LSDSSMs: 基于低秩稀疏分解状态空间模型的红外小目标检测网络(2025, TGRS)

**论文题目:**LSDSSMs:Infrared Small Target Detection Network based on Low-Rank Sparse Decomposition State Space Models

目录

摘要

引言

方法

LSD(低秩分解)和RPCA(主成分分析)

整体架构

低秩分解模块(LRD)

稀疏目标提取模块(STE)

联合重构模块(JR)

损失函数

实验

实验设置

对比实验

消融实验

总结


摘要

基于深度学习的红外小目标检测(ISTD)网络取得了显著进展。然而,这些方法在应用于现实世界时仍然面临着重大挑战 。它们大多缺乏红外图像中小目标检测的基本原理 ,导致难以从复杂背景中区分目标,可解释性差。(本文解决的问题)

提出了一种可解释的红外小目标检测网络架构,称为低秩稀疏分解状态空间模型(LSDSSMs)。LSDSSMs采用低秩和稀疏分解的原理,结合了专用的低秩空间分离模块稀疏目标提取模块。这些模块便于提取低秩背景和小目标的稀疏表示。此外,采用联合重构模块对这些组件进行整合,生成重构图像。考虑到红外图像独特的成像特性和小目标的稀疏性,提出了信道选择模块(CSM)增强对稀疏目标的提取。为了提高LSDSSMs在复杂环境中的适应性、稳定性和抗阻力,集成了结合局部和全局信息表示的鲁棒状态空间模型 。此外,引入了多级损失函数 ,对低秩背景、稀疏目标和重建图像实施综合约束。这种设计不仅提高了LSDSSMs的鲁棒性,而且提高了其在不同场景下的性能。

引言

红外小目标的研究背景(应用场景广泛),红外图像的固有局限性给红外小目标检测带来了技术挑战------> 早期ISTD算法 是由传统目标检测框架演变而来的(红外和可见光图像之间形状和纹理特征的显着差异导致这些基于检测的方法的性能不理想),ISTD被重新定义为一种图像分割任务,以更有效地捕获小目标的独特热特征和低对比度特征(传统分割网络直接应用于ISTD受到红外特征表示的固有局限性的制约)------> 随后的研究进展主要沿着特征提取和特征分解的轨迹。在特征提取范例中,专门为ISTD设计的卷积神经网络(CNN)显著增强了检测性能(这些方法经常过度优先考虑局部特征 ,而未充分利用全局上下文关系导致漏检)------> 视觉transformer**(** 利用自注意机制对远程依赖性进行建模,引入了二次计算复杂度 )------> 考虑到处理高分辨率图像的必要性,状态空间模型(ssm)(如Mamba)由于其线性计算缩放和鲁棒性而获得了突出的地位(当直接部署到ISTD任务时 ,这些ssm固有的图像建模方法需要进一步的体系结构优化

尽管在检测精度方面取得了重大进展,但主流ISTD网络在特定领域物理原理的可解释性方面仍然不足基于深度学习(DL)的低秩稀疏分解(LSD)方法结合物理先验,通过先进的张量表示和域不变特征变换动态优化参数,显示出优越的适应性。这种范式有效地弥合了物理可解释模型和数据驱动学习之间的差距。代表性的方法包括:单帧ISTD :联合低秩和局部光滑约束的张量相关总变差(TCTV)、l2范数噪声抑制和结合非线性多尺度形态正则化的张量环(TR)分解;多帧ISTD :拉普拉斯秩近似结合加权局部结构张量先验。总的来说,这些方法增强了时空相关性保存和自适应秩最小化的能力 ("黑箱"架构固有的不透明决策过程对大量标记数据集的严重依赖 ,以及有效整合特定领域物理约束的挑战)------> 具有可解释架构和参数效率的深度展开网络(DUN)通过将迭代优化算法展开到顺序的网络层中,DUN可以将数学先验与数据驱动的学习系统地集成在一起,从而在保持物理可解释性的同时促进参数优化 。ISTD本质上需要处理和处理低秩背景矩阵和稀疏目标,这是与DUN的基本设计理念相一致的范例(由于高维张量运算是计算密集型的,DUN在ISTD中的应用带来了计算上的挑战 。现有方法主要侧重于优化奇异值阈值(SVT)和软阈值(ST)操作的参数,但经常忽略图像内部的内在相关性 。因此,阻碍了适当正则化参数的选择,使模型调优过程中的超参数优化进一步复杂化)------> 用于ISTD的低秩稀疏分解状态空间模型(LSDSSMs)框架**,** 利用鲁棒主成分分析(RPCA)优化将原始图像D分解为低秩背景B和稀疏目标T。LSDSSMs架构包括n个阶段,每个阶段由三个核心模块组成:1)LRD低秩分解模块;2)STE稀疏目标提取模块 ;3)关节重建模块(JR)LRD通过矩阵分解来估计低秩背景BSTE使用稀疏表示对目标区域T进行定位。在STE中,设计了一个信道选择模块(CSM)来突出显示存在潜在目标的信道。最后,JR合并低秩背景B和稀疏目标T来重建原始图像D。通过解耦和重建背景/目标分量,LSDSSMs提高了检测精度、计算效率和对ISTD挑战的鲁棒性。在LRD模块中,提出了低秩状态空间模型块(low-rank SSM块)块来对低秩背景进行结构表征。这些模块采用输入u(k)的自适应线性变换与奇异值分解(SVD)相结合来构建低秩系统参数识别(LSPI)模块。LSPI模块随后识别低秩系统参数矩阵LA、LB、LC和LD。在STE模块中,引入稀疏状态空间模型块(稀疏SSM块)来生成目标的稀疏表示。这些模块首先利用CSM来放大潜在位置,然后对输入u(k)进行自适应线性变换和软稀疏表示(SSR)来构建稀疏系统参数识别模块(SSPI)。该模块识别稀疏系统参数矩阵SA、SB、SC和SD。最后,JR随后将得到的低秩背景和稀疏目标进行融合,重建红外图像。这种集成方法确保了低秩和稀疏分量的协同处理,提高了红外图像中小目标的检测精度和计算效率。

本文主要贡献如下:

1)提出了一种针对ISTD的新架构------LSDSSMs,该框架以该领域最低的参数数实现了最先进的定位精度;

2)提出了两个专门的块:用于低秩空间分离的低秩SSM块和用于稀疏目标提取的稀疏SSM块;

3)提出了CSM模块,该模块无需学习参数即可运行。CSM被设计为在通道扩展后选择性地过滤和强调特征映射,从而增强模型对目标的感知能力。

方法

LSD(低秩分解)和RPCA(主成分分析)

LSD旨在将复杂数据分解为低秩矩阵和稀疏矩阵 两个主要组成部分,从而简化数据结构,提取显著特征,同时保留关键信息,去除噪声和冗余 。在ISTD中,背景通常表现出稳定、重复的模式,而小目标由于其明显的热对比而表现出明显的异常。这种固有的二分法可以将原始数据D表述为低秩背景B和稀疏目标T的和,即D = B + T。低秩背景B捕获主导模式和结构冗余,代表数据的内在全局行为。相反,稀疏分量T封装了异常或局部特征,这些特征尽管在数据集中不常见,但具有显著的检测值。

LSD通常被表述为RPCA问题。RPCA的基本原理是将D = B + T的概念转化为求解以下优化问题Eq.(2)来实现这种分解。

在这种情况下,利用了低秩矩阵B的核范数(记为||B||*)和稀疏矩阵T的L1范数(记为||T||1)。引入参数λ来调节矩阵T的稀疏性,从而达到低秩矩阵和稀疏矩阵的平衡。||B||*的计算依赖于SVD(奇异值分解),计算成本可能很高,资源密集,特别是在处理大规模矩阵时。此外,数值稳定性问题和存储限制可能进一步阻碍核范数的精确计算和实际实施。虽然理论上对优化低秩表示是有效的,但这些挑战可能会限制它们在高维和大数据场景中的应用。此外,在复杂的红外场景中,背景和目标的复杂性和稀疏性可能会有所不同,单个范数或秩函数可能无法充分捕获底层数据约束。这种复杂性需要更复杂的方法来有效地解决红外成像中遇到的各种条件。因此,为了更好地管理这种可变性并提高目标检测精度,将原来的优化问题重新表述为Eq.(3)。

在这种情况下,R(B)和S(T)分别表示B和T的约束函数。为了迭代求解方程中的B,首先将迭代问题重新表述为Eq.(4)中的形式。

在这种情况下,µ2 ||T + B−D||2F是一个保真度项,用于测量由B和T组成的重构数据与原始数据D之间的误差,参数µ是一个调优参数,用于平衡保真度项和正则化项的影响。

R(B)通常使用阈值为µ的SVT(奇异值阈值)算子求解。然而,在实际应用中,特别是在要求高精度的场景中,确定最佳阈值仍然是一个挑战。为了解决这个问题,[40]提出了一种最优类秩SVD初始化方法。该方法旨在通过选择合适的秩来改进SVD的计算,从而提高计算效率和精度。然而,即使有了这种改进,由于数值SVD计算的固有局限性而产生的精度问题也不能完全克服。最近的研究建议利用神经网络强大的非线性能力来模拟SVT算子。这种方法利用神经网络直接从图像中学习和提取深度特征,以数据驱动的方式实现图像的低秩分解。这种方法不仅提高了精度,而且还增强了神经网络模型的可解释性,因为它允许模型学习如何直接从数据中执行有效的低秩分解,而不是仅仅依赖于数学公式或算法。

对于方程中T的迭代解,首先将迭代问题重新表述为式(5)。

在复杂红外场景中稀疏目标的处理中,常用的优化方法,如使用L1范数约束S(T)[42],面临着挑战,特别是在将软阈值操作应用于神经网络时。此外,稀疏性约束通常会随着检测场景的变化而波动,从而增加了优化过程的复杂性。为了解决这个问题,[35]提出了一个更简单、更直观的封闭形式解决方案。最初,稀疏函数S(T)进行泰勒展开式。例如,连续时间函数f(t)具有连续的Lipschitz
梯度,它们可以通过在不动点a处的泰勒展开来近似,如式(6)所示。

其中,L为常数。在此基础上,函数S(T)可以近似于最后一次迭代的值Tk−1,S(T, Tk−1)←T−Tk−1 +▽S(Tk−1)),最终根据式(7)更新目标矩阵。

整体架构

在ISTD背景下,利用LSD原理将单帧红外图像D分解为低秩背景B和稀疏目标T,其中D, B, T∈RC,H,W。这个原理构成了ISTD网络的基础,称为lsdssm。如图1所示,lsdssm的体系结构由n个阶段组成,每个阶段包含三个关键模块:低秩分解模块(LRD);稀疏目标提取模块(STE)和联合重建模块(JR)。具体来说,在第一阶段,对初始输入图像D0进行SVD,提取初始低秩背景B0和稀疏目标T0。然后将这些组件传递到LRD中,其中D0、B0和T0经过迭代处理以生成精细的低秩背景B1。随后,将D0、B1和T0馈入STE,迭代得到新的稀疏目标T1。最后,将B1和T1输入到JR中,重建更新后的原始图像D1。后续阶段反映了阶段1的结构,仅省略了初始SVD。经过n个阶段后,网络生成最终输出Dn、Bn和Tn,用于构造监督损失。为了调节优化过程,采用多级损失函数对输出进行严格约束和微调,确保最优分解性能。这种结构化的方法不仅提高了红外图像中目标检测的精度,而且显著提高了分解过程的计算效率。

低秩分解模块(LRD)

LRD模块的主要功能是通过特定的非线性变换和低秩状态空间模型,从原始图像中迭代提取低秩背景。这个过程在Eq.(8)中有正式的描述,其中k表示当前阶段,k-1表示前一阶段。变量Dk-1、Tk-1和Bk-1分别表示前一阶段获得的重构图像、稀疏目标和低秩背景。符号fk表示LRD,其中包括卷积和低秩SSM块。参数φk是可训练的,初始设置在实验细节的第IV-A节中提供。

LRD的结构如图1所示。首先,该模块利用低秩稀疏分解原理,结合平均过程,生成一个初步的低秩背景输入,记为IBk,其中IBk∈RC,H,W。在此之后,使用通道扩展卷积操作扩展特征图的通道维度,从而增强了模型进行更细致特征表示的能力。在随后的步骤中,通过低秩SSM块从特征映射中提取全局低秩信息,这些块旨在捕获图像的底层结构特征。在该过程的最后阶段,通过通道压缩卷积将特征图转换为灰度格式,然后与初始低秩背景输入IBk迭代组合,以产生当前阶段的低秩背景Bk。这一过程不仅提高了背景分离的精度,还增强了模型对复杂场景的适应性。低秩SSM块的详细设计如图2所示,左上角是整体架构的缩略图。最初,该模块通过两个顺序卷积模块处理输入特征图I进行初步特征提取,获得特征表示x,其中x∈RC,H,W,Conv2d表示二维卷积,BN表示批归一化,act表示激活函数(ReLU)。这一步的目的是捕获输入数据中固有的核心特征和模式。

随后,对x的处理从应用全局平均池化开始,分别沿着H和W维度执行。该操作降低了维数,得到两个一维特征映射x1和x2,其中x1∈RC,W, x2∈RC,H。

这一步旨在简化特征表示,同时保留跨不同维度的基本信息。接着,两个特征映射沿着H维和W维进行连接,产生一个融合的特征映射xc,其中xc∈RC,(H+W),Cat表示连接。

融合特征图xc最初进行线性变换,进一步细化和增强特征信息。随后,将其划分为y1和y2两个子特征图,其中y1,y2∈R 2,(H+W), Split表示沿通道维度分割xc。这些分别专门用于提取全局和局部特征。

将子特征映射y2直接进行Conv1d提取局部细节特征映射z2,其中Conv1d表示一维卷积。

子特征映射y1首先通过Conv1d进行处理,然后进入低秩系统参数识别(LSPI)模块。该模块利用低秩约束将后续SSM中的系统参数转换为低秩格式,从而更贴近低秩SSM的设计。在该模块中,通过一系列线性层和归一化过程,从y1中初步提取出系统参数A、B和C。参数D是一个可训练的单位矩阵,初始化为全一矩阵(记为J),并通过梯度下降迭代进行优化。

为了保证参数保持低秩结构,采用奇异值分解(SVD),分别获取低秩系统参数LA、LB、LC和LD。

​​​​​​​ ​​​​​​​ ​​​​​​​

利用这些低秩参数,构造低秩SSM。此外,在状态转移矩阵LA中加入了一个低秩鲁棒反馈参数KL,便于状态反馈控制。这种集成旨在优化系统的动态响应并增强其鲁棒性。KL基本上是一个负值较小的可训练参数,其初始设置在实验细节的第IV.A节中提供。

Eq.(17)说明了低秩SSM的基本形式,其中LAd和LBd分别表示低秩状态转移矩阵LA和输入矩阵LB的离散化版本。离散化遵循零阶保持器(ZOH)原理[43],如Eq.(18)所示。

通过应用上述方法并迭代求解低秩SSM,最终得到全局特征映射z1。整个低阶SSM模块的设计精心结合了全局和局部特征。通过精确的参数控制和有效的特征融合策略,有利于对输入特征进行全面的分析和细化。在低秩SSM模块的最后阶段,沿着通道维度将全局特征图z1和局部特征图z2连接起来,以整合全局和局部信息。随后的线性变换层对这些特征的表示进行细化和优化,产生组合特征映射z (Eq.(19)),其中S表示sigmoid函数。然后将组合特征映射z乘以初始特征x,并通过残差连接连接到原始输入I,从而得到最终输出O。

这种残差连接策略不仅保留了输入图像的核心结构,而且有效地整合了模块处理后的细节信息和上下文信息。这种整合实质上提升了输出的质量和信息深度。整个过程以细致的特征管理和战略性编排的信息融合为特点,确保了模型的输出既具有计算效率又具有高度准确性,使其非常适合需要细致入微和精确表达特征的复杂视觉任务。

稀疏目标提取模块(STE)

STE与LRD具有相似的结构框架,但有一些显著的区别。其主要功能是通过特定的非线性变换、信道选择模块(CSM)和稀疏SSM块,从原始图像中迭代提取稀疏目标。这个过程如Eq.(20)所示,其中k表示当前阶段,k-1表示前一阶段。Dk-1和Tk-1分别表示前一阶段的重构图像和稀疏目标。Bk为当前阶段获得的低秩背景,gk为STE,包括卷积和稀疏SSM块,ϵk为可训练参数,其初始设置见实验详情IV-A节。

如图1所示,STE模块最初采用低秩稀疏分解理论生成初始稀疏目标ITk,其中,ITk∈RC,H,W。随后,应用通道展开卷积运算来增加特征图的通道维数,增强其有效表示特征的能
力。

需要注意的是,许多现有的方法将灰度图像扩展到多个通道,并直接将其输入到复杂的网络中进行非线性拟合 。虽然这种方法可能会产生令人满意的结果,但它缺乏坚实的理论基础 。考虑到图像的结构特征,稀疏目标通常只占原始图像的很小一部分 ,并且可能只出现在需要检测的特定通道中 。在红外成像的背景下,稀疏目标通常以细微且明显明亮的区域为特征 。这些通道的早期识别和增强可以显著提高探测和改进稀疏目标的精度和效率。为了解决这个问题,我们引入了CSM,它被设计用来识别和选择可能包含稀疏目标的信道。CSM算法通过选择性地对信道进行加权,强调信道的重要性,从而优化稀疏目标提取过程,提高模块的效率和可解释性。重要的是要注意,CSM仅作为辅助计算单元,不包括任何可训练的参数。

CSM的结构如图3所示。考虑一个原始的稀疏目标特征映射,如图4(a)所示。在通常的过程中,首先通过应用卷积、归一化和激活函数,将特征映射从单通道转换为多通道(图4(b))。接下来是一个旨在提取特征的最大强度谱的归一化过程,表示为α,其中α∈RC,1,1,S表示sigmoid函数,用于每个通道。强度谱用图5中的红色曲线表示,其中横轴表示通道数(C),纵轴表示α的强度值。通过观察可以注意到,例如在图4(c)所示的红色曲线对应的通道中,存在更明显的稀疏目标(这里的输入特征图是训练的结果,因此目标显得更清晰)。但是,在实际场景中,这些通道是无法直接获得的。因此,我们提出了一个合理的假设:当最大特征向量α达到最大值时,该值越大,越有可能指示潜在目标。同时,我们假设包含稀疏目标的信道之间的相似度高于没有目标的信道之间的相似度。这第二个假设用于进一步筛选基于相似度的包含目标的通道。为了计算信道间的相似矩阵,我们首先将α展开到一个高维空间,αh∈RC,C,C通过一个高阶张量广播机制(HOTBM)。然后我们使用αhT来表示转置的最大特征向量βh,其中βh∈RC,C,C。

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

通道之间的相似性矩阵是一个二维矩阵。因此,初步的相似矩阵,表示为d,其中d∈RC,C,首先通过计 算向量αh和βh之间的有向差来构建,然后进行归一化(Norm),如Eq.(22)所示。该方法确保矩阵d有效地捕获通道之间的方向关系和差异,这是分析通道相似性的关键步骤。如图6 (a)所示,d的热图有效地利用了不同通道之间的相似性度量,以精确地确定沿对角线分配给每个通道的权重。这种方法对于提高涉及多通道的研究中分析的准确性至关重要。

使用高斯核构建相似矩阵是一种被广泛采用的方法,因为它有效地强调了近端数据点的影响,提供了一种与局部数据结构很好地协调的精细而稳健的相似度量。来计算之间的相似性矩阵d的元素dij,第二个最接近的值被用来确定元素dij和目标元素(被标识为集合的对角线元素)之间的标准差σ。σi使用Eq.(23)确定,其中R=2表示选择第二个最接近的值。这种设置σi的方法确保高斯核在其灵敏度上保持最佳平衡:在计算相似性时,它不会对极端值过度反应,但在没有过度平滑[45]的情况下仍然对显著变化做出响应。最终的σ值集合可以表示为{σ 1, σ2...σc}。

​​​​​​​ ​​​​​​​ ​​​​​​​

阈值Xi是使用Eq.(25)确定的,其值限制在2到C的范围内,其中int表示四舍五入到最接近的整数。在图像和信号处理的背景下,背景元素通常占主导地位,并且广泛分布在几乎所有通道中,从而导致主要由背景信息组成的通道之间具有高度的相似性。相反,由于目标的稀疏性,包含目标信息的通道通常与其他通道表现出明显较低的相似性。这种差异的产生是因为目标元素的存在从根本上改变了这些通道的特征,有效地"破坏"了固有的背景结构。术语e−(d ij)为捕捉这种现象提供了一个有效的模型。具体来说,对于第i个通道,假设目标存在,(αh)i)的值预计会升高。这导致总体计算的d[i,:]的值相应更高,从而导致由Eq.(25)确定的较小的Xi值。此外,由于e−(d ij)的输出范围被限制在区间(0,1)内,这一特性使得它特别适合于进一步的分析和决策过程。

为了提高相似性评估的精度,采用高斯核将σ和µ转化为正态分布N(µ,σ2),有效地模拟了它们的概率分布。得到的概率分布热图如图6(b)所示。该分布的对角元素表示分配给每个通道的概率权重,用W表示,其中Diag表示对角元素。例如,在图6(c)中,稀疏通道权值对应的通道分别为9、12、25、32和35。与其他通道相比,这些通道在包含小目标方面被认为更为重要。

其中,c1、c2和c3表示可能包含稀疏目标的通道的位置,不同的颜色表示它们各自的权重。然后将权重W应用于输入i,随后生成残差输出,该残差输出用于生成最终输出O,有效地强调了稀疏目标。

在CSM识别出可能包含稀疏目标的通道之后,利用稀疏SSM块从特征映射中深度提取全局稀疏信息。随后,通过通道压缩卷积将特征映射转换为灰度格式。然后将该灰度图与初始稀疏目标一起用于残差迭代处理,以获得当前阶段的稀疏目标,记为Tk。如图8所示,稀疏的SSM块与低秩SSM块。然而,它们的区别在于在稀疏系统参数识别模块(SSPI)中加入了软稀疏表示(SSR),该模块调节稀疏系统参数SA、SB、SC和SD。该方法通过引入稀疏正则化项增强了这些参数的稀疏性,有效降低了模型复杂度,同时提高了系统的可解释性。利用这些稀疏参数,构建稀疏SSM,对稀疏目标的位置进行高精度迭代跟踪,从而提高目标提取任务的效率和精度。整个STE不仅显著提高了稀疏目标提取的精度,而且通过优化输出背景的质量,增强了模型在复杂环境下的适应性和鲁棒性。这种集成的方法确保了模型在不同的环境条件下始终如一地提供高效率和高精度。

联合重构模块(JR)

如图1所示,JR通过三个连续的卷积块处理图像数据,每个块都有不同的功能,以实现精确的图像重建。该过程从扩展卷积块开始,通过增加通道数量来增强网络的特征表示能力。这种扩展提供了一个全面的原始数据基础,方便了复杂的特征提取。在此之后,深度特征提取卷积块详细分析这些扩展的特征,利用更深层次的网络架构来提取关键信息。最后,压缩卷积块将高维特征映射的维数降低到所需的通道数(例如灰度),确保输出图像保留必要的细节,同时最小化计算复杂度和存储需求。JR模块不仅简化了从输入到输出的特征转换工作流程,而且显著提高了模型在图像恢复任务中的性能和精度。

损失函数

该设计结合了一个多损失函数框架,如图所示,并在Eq.(28)中进行了描述。该框架利用输出目标Tn、背景Bn和重建的输出图像Dn输出对lsdssm施加约束。每个组件都使用SoftIoU损失函数作为其基本基础。具体来说,目标损失(记为TLoss)是通过在Tn和ground truth之间直接应用SoftIoU损失来计算的。对于背景损失BLoss,最初采用RPCA公式D = B+T推导间接输出目标Tn1=D0-Bn
(其中D0表示原始红外输入图像)。随后,通过应用Tn1和ground truth之间的SoftIoU损失来计算BLoss。同样,对于重构图像的损失,利用RPCA公式推导出DLossTn2=Dn-Bn ,然后计算Tn2与地真值之间的SoftIoU损失,得到DLoss。

BLoss和DLoss的损失分别赋值权重λB和λD。由于BLoss作为间接约束,DLoss作为次要间接约束,因此λB和λD的值被精心设计为逐步减小。实验设置的第IV-A节详细介绍了这些参数的初始设置,而第IV-B节则介绍了消融实验以评估其影响。

实验

实验设置

对于我们的验证实验,我们使用了两个公共数据集IRSTD-1K和NUDT-SIRST,每个数据集的图像分辨率都为256x256。使用五个指标对实验进行评估:模型参数(M)、平均交联(mIoU)、检测概率(Pd)、误报率(Fa)和推理时间。在我们的实验中,我们在RTX 4090 GPU上使用pytorch框架进行了400多个epoch的训练轮次,批次大小为8。我们使用Adam优化器,初始学习率为0.0005。每个阶段的可训练参数φk、ϵk初始设置为0.1,KL初始设置为0.01。在损失函数中,分别将λB和λD值配置为0.05和0.01。

对比实验

可视化

消融实验

总结

我们引入了低秩稀疏分解状态空间模型(lsdssm),该模型通过解释图像结构来解决ISTD任务。LSD方法通过RPCA优化,有效分解红外图像,从红外图像中分离出低秩背景和稀疏目标。lsdssm分为n个阶段,每个阶段由LRD、STE和JR组成。此外,我们提出了CSM来增强目标提取过程中的稀疏表示。这种可解释的图像结构分离方法不仅提高了模型的有效性和稳定性,而且提高了模型模拟复杂视觉动态系统的能力。展望未来,我们的目标是解决多目标ISTD场景中弱目标未检测的挑战。我们未来的工作将侧重于推进方法,不仅将目标从背景中分离出来,而且明确区分强目标和弱目标。这将通过自适应特征增强和分层注意机制来实现,这有望进一步完善模型的灵敏度和准确性。

相关推荐
gallonyin1 小时前
【AI智能体】Claude Code 工具架构核心解析:大道至简
人工智能·架构·智能体
江上鹤.1481 小时前
Day 28 复习日
人工智能·python·机器学习
Apache Flink1 小时前
Apache Flink 2.2.0: 推动实时数据与人工智能融合,赋能AI时代的流处理
人工智能·搜索引擎·百度·flink·apache
小二·1 小时前
DeepSeek应该怎样提问?
人工智能
zhaodiandiandian1 小时前
2025 AI 革命:从技术深耕到产业生态的全面重构
人工智能·重构
研华嵌入式1 小时前
用Edge Impulse开启你的边缘AI之旅
arm开发·图像处理·嵌入式硬件·目标检测·视觉检测·边缘计算
得贤招聘官1 小时前
AI 招聘高效解决方案
人工智能
jimmyleeee1 小时前
人工智能基础知识笔记二十三:构建一个可以查询数据库的Agent
人工智能·笔记
oliveray1 小时前
动手搭建Flamingo(VQA)
人工智能·深度学习·vlms