基本信息
CVPR 2025
博客贡献人
田心
作者
Xiangpeng Tian, Xiangyu Liao, Xiao Liu, Meng Li, Chao Ren
摘要
一体化图像恢复旨在使用统一模型从各种退化类型和级别中恢复清晰图像。然而,不同退化类型之间的显著差异给训练通用模型带来了挑战,经常导致任务干扰,即由于共享参数,不同任务的梯度更新方向可能发散。为了解决这个问题,受路由策略的启发,我们提出了面向一体化图像恢复的退化感知特征扰动方法(DFPIR),一种新颖的一体化图像恢复器,引入退化感知特征扰动(DFP)来调整特征空间以与统一参数空间对齐。在本文中,特征扰动主要包括通道级扰动 和注意力级扰动。具体而言,通道级扰动通过在退化类型引导下的高维空间中打乱通道来实现,而注意力级扰动则通过在注意力空间中进行选择性掩码来实现。为了实现这些目标,我们提出了退化引导扰动块(DGPB)来实现这两个功能,将其置于编码器-解码器架构的编码和解码阶段之间。大量实验结果表明,DFPIR在多个一体化图像恢复任务上取得了最先进的性能,包括图像去噪、图像去雾、图像去雨、运动去模糊和低光照图像增强。
1 引言
图像恢复是计算机视觉中的一项基础任务,已被广泛研究,主要关注解决单个退化类型,如噪声、雾霾、雨水或模糊。近年来,基于深度学习的方法在单一退化恢复任务上取得了显著进展。虽然这些单一退化解决方案在特定条件下表现良好,但它们往往难以有效地泛化到多种退化场景。因此,近期研究已转向多退化恢复技术,为已知退化组合提供了最先进的性能。然而,这些方法通常需要为每种退化类型配备独立的网络,导致模型规模大且计算成本高。
最近,一体化方法(也称为多退化或多任务图像恢复)通过在一个统一模型中解决多种图像退化问题而备受关注。虽然这些方法取得了最先进的结果,但由于共享参数,它们往往忽视了不同退化类型之间的关系和独特特征。例如,MedIR 证明不同任务之间的梯度更新方向不一致甚至相反。根据现有方法的特点,当前的一体化图像恢复方法大致可分为两类:(1)一种解决方案是修改参数空间以适应不同退化的模型 ;(2)另一种解决方案是修改特征空间以与共享参数空间对齐。两种方法都需要将退化信息纳入网络以减轻不同退化之间的干扰。虽然方法(1)能有效增强网络性能,但它通常需要大量额外的退化参数或更复杂的网络结构,增加了计算开销。
与方法(1)相比,方法(2)在"一体化"图像恢复框架中更为普遍。方法(2)通常涉及引入退化类型提示(prompt) ,调制特征以适应统一参数空间。具体而言,Prompt 通过引入额外的隐式提示来进行多退化处理。然而,尽管特征域中的这种隐式线索利用了图像的固有特征,但它忽视了退化类型的影响,使得难以减少多种退化类型之间的相互影响,最终导致次优结果。MedIR 在特征空间调制中引入多个专家模块来实现任务自适应路由策略。虽然这种"硬"路由策略有效减少了任务间的影响,但它可能忽视多种退化之间图像的固有特征 。InstructIR 引入文本指令进行多任务恢复,展示了使用文本提示引导图像恢复的潜力。然而,InstructIR 通过通道注意力使用文本提示调制特征,这可能难以缓解不同退化之间的相互影响。

Figure1:该图展示了DFPIR的通道级扰动方法,其中通道重排为不同的退化类型分配独特的通道顺序。

Figure2:该图展示了我们的注意力感知扰动,其中 DFPIR 对图像特征应用注意力选择,根据每种降级类型丢弃一部分注意力。
为了克服这些挑战,本文分析了提示成功的设计理念和原理,并提出了一种退化感知特征扰动方法,用于调整特征空间以与一体化图像恢复的统一参数空间对齐 。我们的方法通过扰动来调制特征,包括通道级和注意力级扰动 ,以在退化类型提示引导下与共享网络参数或结构对齐。具体而言,通道级扰动涉及在高维空间中打乱通道,而非使用传统的通道注意力机制(见图1)。这种打乱方法在保留图像固有特征的同时减少了退化特征的相互影响 。而注意力级扰动则涉及在通道打乱后对特征进行选择性掩码,以实现通道自适应的注意力扰动(见图2)。这种方法不仅保留了图像的固有特征信息,还自适应地减少了不同退化类型之间的相互影响,在影响和固有特征之间取得了良好的平衡。本文方法的主要贡献如下:
- 我们提出了一种新颖的退化感知特征扰动一体化恢复框架DFPIR,它在退化类型引导下自适应地调整高维空间中的特征空间以与统一参数空间对齐。
- 我们设计了退化引导扰动块(DGPB),由退化引导通道扰动模块(DGCPM)和通道自适应注意力扰动模块(CAAPM)组成,用于沿通道和注意力维度对特征施加扰动调制,与具有统一参数的编码器-解码器架构对齐。
- 大量实验表明,我们的网络在一体化图像恢复中取得了最先进的性能。特别是在一体化恢复方面,与InstructIR相比获得了0.45dB的PSNR提升。
2 相关工作
单任务图像恢复 。单任务图像恢复旨在从其低质量版本中恢复高质量图像。早期方法主要集中在设计有效的手工先验来约束解空间。近期的深度学习方法在各种图像恢复任务上显著提升了性能,如去噪、去雨、去雾、去模糊和低光照增强,通过从大规模数据集中学习可泛化的先验。我们关注通用恢复模型,因为这些架构可以独立训练用于各种任务。NAFNet 通过轻量级通道门控机制简化了网络结构,为非线性激活提供了替代方案。同时,Restormer 利用Transformer架构增强低级恢复任务,同时最小化计算开销。在本研究中,我们采用Restormer 作为DFPIR模型的主干,因其高效的设计和在多种恢复任务上的高性能。然而,这些模型主要为单一退化场景设计,直接应用于一体化恢复任务时效果有限。
一体化图像恢复 。多任务图像恢复旨在使用相同的网络设计解决多个任务。与单任务图像恢复相比,多任务图像恢复的关键挑战是如何在保留图像固有特征的同时减少不同退化特征的相互影响 。一种方法是调整网络的参数空间以适应不同的退化类型 。多项工作探索了这些策略来处理多样化的退化。Li等人引入单编码器、多解码器框架,使用Rain-Haze-Snow数据集针对基于天气的退化。Chen等人提出两阶段知识迁移机制,采用多教师、单学生方法来处理各种退化类型。Li等人提出能够恢复多个退化图像的一体化框架,无需预先了解退化类型或级别。Zhang等人提出面向成分的策略,在单个模型中支持多达五种恢复任务,显著增强了可扩展性。类似地,Zhang等人引入由退化分类引导的表示学习网络,利用其强大的分类能力有效指导恢复过程。另一种方法是引入图像或退化提示来调制特征,以适应统一参数空间。PromptIR 通过提示编码退化特定信息,使用它们动态引导恢复网络。相比之下,InstructIR 允许基于指令的模型驱动图像编辑,指定所需操作,而非依赖文本标签、标题或输入输出图像的描述。
3 方法
在"一体化"图像恢复中,目标是开发一个单一模型,能够从受退化
影响的退化输入图像
中恢复清晰图像
。在相同的网络参数和架构下,不同类型的退化相互影响。例如,退化图像包含固有图像特征和退化特征。虽然固有图像特征帮助网络学习潜在参数,从而增强恢复性能,但退化特征可能相互负面影响,降低恢复效果。为了充分利用图像的固有特征同时减少不同退化特征的影响 ,受"硬"路由策略和PromptIR的启发,我们提出了一种退化感知特征扰动调制网络DFPIR ,通过扰动调制调整特征空间以与共享参数网络结构对齐,从而增强多退化图像恢复性能。扰动分为两部分:通道级扰动和注意力级扰动。通道级扰动通过通道打乱实现,而注意力级扰动通过选择部分注意力图实现。这两种扰动机制的详细信息在第3.3节提供。所提出的DFPIR框架流程如图4所示。在接下来的章节中,我们详细描述DFPIR的整体结构。

Figure3:该图展示了在三任务设置下,DFPIR和PromptIR在测试数据集(CBSD68、Rain100L 和 SOTS)上的中间特征的 t-SNE 图。在我们的模型中,每个任务的特征呈现出更紧密的聚类,突显了我们的降解感知特征扰动策略在提升恢复性能方面的有效性。
3.1整体流程
给定退化输入图像 ,DFPIR首先使用
卷积层提取浅层特征
;其中
是空间尺寸,
表示通道数。接下来,这些特征
经过4级编码器-解码器网络,转换为深层特征
。编码器-解码器的每一级采用多个Transformer块,块的数量从顶层到底层逐渐增加,实现计算高效的设计。从高分辨率输入开始,编码器旨在逐步降低空间分辨率同时增加通道容量 ,从而得到低分辨率的潜在表示
。给定低分辨率潜在特征
,解码器的目标是逐步恢复高分辨率清晰输出。为了辅助恢复过程,编码器特征通过跳跃连接与解码器特征拼接。我们将退化引导扰动块(DGPB)插入编码器和解码器之间,具体在跳跃连接阶段,以在退化类型提示引导下扰动编码特征空间,并与共享参数解码器对齐。为了获得退化类型提示,我们使用预训练的CLIP模型编码文本退化类型描述。在接下来的章节中,我们详细描述所提出的DGPB及其核心构建模块。

Figure4:DFPIR框架概述。我们采用Restormer,这是一种在编码和解码阶段使用Transformer块的编码器-解码器网络,作为我们的骨干网络。该框架的主要组件退化引导扰动块(DGPB)由两个子模块组成,即退化引导通道扰动模块(DGCPM)和通道自适应注意力扰动模块(CAAPM)。DGCPM模块通过降解类型提示引导,在图像特征上引入以通道洗牌形式的常规维度扰动。CAAPM模块通过top-K掩码策略将注意力扰动应用于通道洗牌后的特征。
3.2退化引导扰动块
在一体化设置中,共享参数难以有效处理一体化图像恢复。我们专门设计了退化引导扰动块(DGPB),在退化类型提示引导下对编码特征施加扰动,使其更好地与多任务场景中的共享解码器对齐 (如图4所示)。给定图像特征 和退化类型提示
作为输入,DGPB的整体过程定义为:
其中表示编码器输出。DGPB包含两个核心组件:退化引导通道扰动模块(DGCPM)和通道自适应注意力扰动模块(CAAPM)。
3.2.1 退化引导通道扰动模块(DGCPM)
在DGCPM中,目标是在退化类型提示引导下通过通道打乱对特征通道添加扰动。然而,直接在特征上打乱通道可能因过度扰动而难以收敛,也可能影响重建质量。为了解决这个问题,我们首先将图像特征 Fn 的通道数扩展2倍 ,以在退化引导模块(DGM)引导下的高维通道空间中引入通道扰动。通道扩展后,特征
的尺寸变为
。在DGM中,退化类型提示(
)用于自适应地应用通道打乱 。为了保持
的维度与
的通道维度一致,我们采用由两个线性层组成的多层感知机(MLP)来实现维度匹配 。因此,MLP将输入特征
转换为
。在通道打乱阶段,我们获取
的
值对应的索引值,并使用这些索引值重新排序通道。最后,在打乱后将通道数减半,以保持转换前后的通道数一致。总体而言,DGCPM过程总结为:
其中操作表示在
引导下的
通道打乱,而
和
分别表示特征通道加倍和减半的操作。经过DGCPM后,我们获得特征
。
3.2.2 通道自适应注意力扰动模块(CAAPM)
虽然打乱后的特征能够很好地适应特定退化,但直接使用它们进行重建可能无法获得最优结果。这是因为打乱后的特征携带退化类型信息,但缺乏与原始特征信息的交互 。为了解决这个问题,我们设计了通道自适应注意力扰动模块(CAAPM)。CAAPM有两个主要功能:促进打乱特征和原始特征之间的信息交互 ,以及在注意力维度添加扰动 。受Restormer启发,我们在通道维度设计了交叉注意力机制来聚合打乱和原始特征。为了在注意力图上添加扰动,我们引入掩码矩阵 ,使用
方法从每行选择部分注意力图,扰动因子参数为
。获得扰动注意力图
的过程可以描述为:
其中查询来自打乱特征
,
和
来自原始特征
。
表示选择掩码矩阵。
表示逐元素乘法。然后,我们使用
卷积获得具有注意力扰动的特征
。
最后,我们通过前馈神经网络FNN获得最终输出。这可以表示为:
扰动因子的选择需要综合考虑任务间的干扰幅度和信息损失。图4展示了
、干扰大小和信息损失之间的关系。在本文中,参数
固定为0.9(保留90%的注意力连接,掩码10%),消融研究展示了不同
值的实验结果。
3.3特征扰动策略的分析
我们提出的任务感知特征扰动策略涉及通道和注意力维度。通过扰动这两个维度,它不仅保留了图像的固有特征,还减少了退化特征的相互影响。图3说明我们的模型在学习判别性退化上下文方面表现出色。
通道级扰动策略 。直接在低维空间进行通道打乱会导致过度扰动,使网络训练难以收敛。因此,我们提出了一种退化感知自适应通道打乱策略(如图1所示),它在高维特征空间中自适应地重新排序每个任务的特征通道。给定包含个通道的图像特征
和
个任务,我们的通道打乱策略为每个退化恢复任务采用不同的通道顺序。对于任何给定任务
,通道打乱后的通道索引向量定义为
。最后,通道打乱后获得的特征为
。这种通道顺序的调整在退化提示引导下是自适应随机的。这种随机自适应打乱策略在减少特征通道间干扰的同时保留了图像的固有特性(因为通道打乱不会导致通道特征损失),从而提高了重建质量。
注意力级扰动策略 。通道打乱的主要目的是在保留图像固有特性的同时最小化退化特征的影响。然而,这种减少不够彻底,意味着其效果有限。为了解决这个问题,我们直接在注意力图中丢弃部分注意力,以进一步减轻多种退化特征的影响(如图2所示)。具体而言,我们计算转置的交叉注意力图。我们使用
方法从
的每列选择部分注意力图值,生成扰动掩码矩阵
,其中未选择的值设为0,剩余值设为1。然后,矩阵
与
逐元素相乘,获得新的注意力图
,在注意力维度实现扰动。换句话说,
,其中
是公式3中的
。
4 实验
在本节中,我们遵循先前最先进工作的协议,在两种设置下进行实验:(a)一体化和(b)单任务。对于一体化设置,训练统一模型处理多种退化类型,在三种和五种不同退化上进行实验。相比之下,单任务设置涉及训练单独的模型,每个模型专门用于特定恢复任务。图像质量指标:PSNR和SSIM(在结果表中以红色突出显示最佳结果,以蓝色突出显示次佳结果)。
4.1 实验设置
数据集 (Datasets)。与先前工作一致,我们为各种恢复任务准备数据集。对于单任务图像去噪,我们合并BSD400和WED数据集的图像来训练模型。在CBSD68和Urban100数据集上进行测试。对于图像去雾,我们使用SOTS数据集,而Rain100L用于图像去雨。去模糊和低光照增强任务分别使用GoPro和LOL-v1数据集。在一体化设置中,统一模型在上述组合训练数据集上训练,并直接在多个恢复任务上测试。
实现细节 (Implementation Details) 。我们的DFPIR提供端到端可训练解决方案,无需预训练任何单个组件。按照PromptIR的配置,我们的DFPIR架构采用4级编码器-解码器结构,每级包含不同数量的Transformer块,从第1级到第4级具体为[4,6,6,8]。我们在编码器和解码器之间集成退化引导扰动块(DGPB),整个网络共分布四个DGPB。我们使用PyTorch在单张NVIDIA GeForce RTX 3090 GPU上进行实验。对于训练,我们运行80个epoch,初始学习率为,然后以
的学习率微调5个epoch。最初,我们将patch大小设置为
,批量大小为5,对于微调,patch大小调整为
,批量大小为3。网络使用L1损失函数结合Adam优化器(参数
和
)进行优化。我们在裁剪的patch上训练,并通过随机水平和垂直翻转来增强数据集。
4.2 三项任务的结果比较
我们评估了我们的一体化DFPIR在三种不同恢复任务上的性能:去雾、去雨和去噪。我们的DFPIR与各种通用图像恢复方法进行比较,包括Restormer、FDGAN和MPRNet,以及专门的一体化方法如DL 、AirNet、PromptIR和InstructIR。如表1所示,所提出的DFPIR始终优于其他竞争方法。在不同恢复任务的平均性能上,我们的算法比先前最佳方法InstructIR提升了0.45dB,比次佳方法PromptIR提升了0.82dB。具体而言,与InstructIR相比,DFPIR在去雨任务上提升了0.67dB,在去雾任务上提升了1.65dB。

Table1: 三个任务的最新技术比较。PSNR和SSIM指标在完整RGB图像上进行报告。在平均PSNR上,我们的DFPIR相比之前的全能方法InstructIR提供了显著的0.45dB提升。
4.3 五项任务的结果比较
为了进一步验证该方法在更广泛任务范围内的有效性,基于IDR和InstructIR的最新研究,我们通过在五种恢复任务上进行实验来扩展对DFPIR有效性的研究:去雾、去雨、去噪、去模糊和低光照图像增强。为此,我们在为五种不同任务编译的组合数据集上训练综合DFPIR。这些包括前述三项任务场景的数据集,以及额外的数据集:用于运动去模糊的GoPro和用于低光照图像增强的LOL。表2表明,DFPIR在五种恢复任务的平均PSNR上比最近领先的方法InstructIR提高了1.09dB。此外,我们将我们的方法与在相同一体化设置下训练的通用图像恢复模型进行比较。值得注意的是,我们的方法在平均PSNR上分别超过Restormer和NAFNet 3.04dB和2.88dB,验证了我们方法在处理多种退化方面的有效性。

Table2: 在五项任务上与最先进方法的比较。PSNR和 SSIM指标在完整 RGB 图像上报告,(*) 表示通用图像修复方法,其他为专门的一体化方法。去噪结果报告为噪声水平 的情况。
4.4 结果可视化
Figure5:在一体化设置下,针对三种退化情况,对 DFPIR 与最先进方法在具有挑战性的案例中的可视化比较。可放大以获得更清晰的视图。
图5提供了展示我们去雾、去雨和去噪结果的可视化示例。与PromptIR和InstructIR相比,我们的方法在具有挑战性的去雾场景中更有效。此外,我们模型的去雨结果更接近真实图像。此外,在图像去噪中,我们的模型从严重退化的噪声输入中恢复了更多细节。我们将通道打乱的结果可视化,如图7所示。通道打乱后,每个任务的通道顺序相应改变,验证了我们提出的通道打乱策略的有效性。此外,我们还将F1层扰动前后的特征可视化,如图6所示。可以看出,经过通道维度扰动(DGCPM)后,网络从多退化场景中提取了图像的固有特征,减少了退化特定特征的影响。随着注意力维度扰动的增加(DGCPM+CAAPM),图像的内在细节特征进一步增强,而退化特征被更有效地抑制。这证明了我们提出的通道和注意力扰动策略的有效性。
Figure6:特征可视化。DGCPM 提取图像的固有特征,同时抑制退化特性。DGCPM+CAAPM 增强固有特征,同时进一步减少退化的影响。放大以获得更好视图。
Figure7:通道混洗可视化。通道混洗后,每个任务的特征通道顺序相较于原始顺序发生了变化。
4.4 消融实验
我们进行了几项消融实验来证明所提出的退化引导扰动块的有效性。我们报告了在三种恢复任务组合数据集上训练一体化模型的结果。更详细的消融实验可在补充材料中找到。
关键组件的影响。如表3(a)所示,直接使用通道注意力(方法(a))比基线提高了0.36dB,但比通道打乱(方法(c))低0.15dB。这也验证了我们提出的通道打乱策略的有效性。通道打乱在保留带有退化信息的固有图像特征的同时,在减少跨退化干扰方面提供了有限的改进。通过应用注意力级扰动,恢复质量显著提升(DGCPM+CAAPM)。平均PSNR从32.49提高到32.88,提升了0.39dB。然而,方法(CA+CAAPM)的结果低于DFPIR,表明通道和注意力维度的扰动产生了协同增强效果。
参数的影响 。如表3(b)所示,如果注意力维度的扰动过高(
)或不存在(
),性能都不是最优的。这是因为过度扰动虽然减少了不同退化图像之间的干扰,但增加了信息损失,导致性能次优。类似地,如果扰动过小,任务间的干扰变得更加显著,同样导致性能次优。

Table3: 在三项任务上的消融研究结果。报告了完整RGB图像的平均PSNR和SSIM指标。CA代表通道注意力。
5 结论
在本文中,我们提出了一种新颖的一体化图像恢复框架DFPIR,引入退化感知特征扰动(DFP)来调整特征空间以与统一参数空间对齐。我们的方法包含通道级和注意力级扰动,在退化类型提示下动态引导。具体而言,通道级扰动通过在高维空间中打乱通道实现,而注意力级扰动则通过在注意力空间中进行选择性掩码实现。为了有效实现这些操作,我们设计了退化引导扰动块(DGPB),它集成通道打乱和注意力掩码,策略性地放置在编码器-解码器架构的编码和解码阶段之间。所提出的DGPB在集成到最先进模型中时证明了其在增强综合图像恢复方面的有效性,在一体化恢复设置中产生了显著提升。
BibTeX
@article{Tian2025DegradationAwareFP,
title={Degradation-Aware Feature Perturbation for All-in-One Image Restoration}, author={Xiangpeng Tian and Xiangyu Liao and Xiao Liu and Meng Li and Chao Ren}, journal={2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2025},
pages={28165-28175},
url={https://api.semanticscholar.org/CorpusID:278740510}
}