Multi-Stage Progressive Image Restoration论文阅读

摘要

图像复原任务在恢复图像时需要在空间细节与高层语境化信息之间取得复杂的平衡。本文提出了一种新颖的协同设计方法，能够最优地平衡这些竞争目标。我们的核心方案是一种多阶段架构，通过逐步学习退化输入的复原函数，将整体恢复过程分解为更易管理的步骤。具体而言，我们的模型首先利用编码器-解码器架构提取语境化特征，随后将其与保留局部信息的高分辨率分支相结合。在每个阶段，我们引入了一种基于原位监督注意力机制的逐像素自适应设计，用于重新加权局部特征。这种多阶段架构的关键在于不同阶段之间的信息交换。为此，我们提出了双管齐下的策略：信息不仅沿早期到后期阶段依次传递，特征处理块之间的横向连接也得以保留以避免信息丢失。由此产生的紧密互联多阶段架构（命名为MPRNet）在包括图像去雨、去模糊和降噪在内的十项任务中取得了显著性能提升。源代码和预训练模型可在https://github.com/swz30/MPRNet获取。

3. 本文提出的方法 ------ 多阶段渐进式修复

提出的图像复原框架（如图2所示）包含三个阶段，逐步恢复图像。前两个阶段基于编码器-解码器子网络，通过较大的感受野学习全局上下文信息。由于图像复原是位置敏感的任务（需要输入到输出的像素级对应），最后一个阶段采用直接处理原始输入分辨率的子网络（不进行下采样），从而在最终输出图像中保留所需的精细纹理。

我们没有简单地堆叠多个阶段，而是在每两个阶段之间引入监督注意力模块。借助真实图像的监督，该模块在传递特征图到下一阶段前重新调整其权重。此外，我们提出了一种跨阶段特征融合机制：早期子网络的多尺度上下文特征有助于整合后期子网络的中间特征。

尽管MPRNet堆叠了多个阶段，但每个阶段都能访问输入图像。类似于近期复原方法[70,88]，我们在输入图像上采用多块分层策略，将其分割为非重叠图像块：第一阶段4块，第二阶段2块，最后一阶段处理原始图像（如图2所示）。

在任意给定阶段S，模型预测残差图像R_S，而非直接生成修复图像X_S。通过将退化输入图像I与R_S相加得到最终结果：X_S = I + R_S。我们端到端优化MPRNet，采用以下损失函数：
L = ∑ S = 1 3 [ L c h a r ( X S , Y ) + λ L e d g e ( X S , Y ) ] , \mathcal{L} = \sum_{S=1}^{3} [\mathcal{L}_{char}(\mathbf{X}S, \mathbf{Y}) + \lambda \mathcal{L}{edge}(\mathbf{X}_S, \mathbf{Y})], L=S=1∑3[Lchar(XS,Y)+λLedge(XS,Y)],

其中 Y \mathbf{Y} Y为真实图像， L c h a r \mathcal{L}{char} Lchar为Charbonnier损失[12]：
L c h a r = ∥ X S − Y ∥ 2 + ε 2 , \mathcal{L}{char} = \sqrt{\|\mathbf{X}_S - \mathbf{Y}\|^2 + \varepsilon^2}, Lchar=∥XS−Y∥2+ε2 ,

实验中经验设置 ε = 1 0 − 3 \varepsilon=10^{-3} ε=10−3。此外， L e d g e \mathcal{L}{edge} Ledge为边缘损失，定义为：
L e d g e = ∥ Δ ( X S ) − Δ ( Y ) ∥ 2 + ε 2 , \mathcal{L}{edge} = \sqrt{\|\Delta(\mathbf{X}_S) - \Delta(\mathbf{Y})\|^2 + \varepsilon^2}, Ledge=∥Δ(XS)−Δ(Y)∥2+ε2 ,

其中 Δ \Delta Δ表示拉普拉斯算子。式(1)中的参数 λ \lambda λ控制两项损失的相对权重，参考[37]设为0.05。接下来我们将详细描述方法的关键组件。

3.1 互补特征处理

现有的单阶段CNN图像复原架构通常采用以下两种设计之一：1）编码器-解码器结构；2）单尺度特征流水线。编码器-解码器网络[7,13,43,65]首先将输入映射到低分辨率表示，再逐步反向映射恢复原始分辨率。虽然这些模型能有效编码多尺度信息，但反复下采样可能导致空间细节丢失。相比之下，单尺度特征流水线方法[6,18,93,97]擅长生成具有精细空间细节的图像，但由于有限的感受野，其语义鲁棒性较差。这表明现有架构存在固有局限性------只能生成空间精确或上下文可靠的输出，无法兼顾两者。

为结合两者的优点，我们提出多阶段框架：早期阶段采用编码器-解码器网络，最后一阶段使用原始分辨率网络。

编码器-解码器子网络 ：图3a展示了基于标准 U-Net [65] 的子网络结构，包含以下组件：

1）在每个尺度添加通道注意力块（CABs，见图3b）提取特征；

2）U-Net 跳跃连接处的特征图也经过 CAB 处理；

3）解码器中用双线性上采样+卷积替代转置卷积，以减少因转置卷积导致的棋盘效应 [55]。

图 (a) 编码器-解码器子网络；(b) ORSNet子网络中的原始分辨率块（ORB）示意图。每个ORB包含多个通道注意力模块。GAP表示全局平均池化[49]；

原始分辨率子网络（ORSNet）：为从输入到输出保留精细细节，我们在最后一阶段引入ORSNet（见图2）。该网络不进行下采样，生成空间增强的高分辨率特征。它由多个原始分辨率块（ORBs）组成，每个ORB内部包含CABs（如图3b所示）。

3.2 跨阶段特征融合

在我们的框架中，我们引入了跨阶段特征融合（CSFF）模块，其位置包括两个编码器-解码器之间（见图3c），以及编码器-解码器与原始分辨率子网络（ORSNet）之间（见图3d）。值得注意的是，来自某一阶段的特征在传递到下一阶段进行聚合前，会先通过 1×1 卷积层进行优化。提出的CSFF模块具有以下优势：

降低信息损耗风险：通过减少编码器-解码器中反复上采样和下采样操作带来的信息损失，使网络更稳健；
多尺度特征增强：某一阶段的多尺度特征有助于丰富下一阶段的特征表示；
优化稳定性提升：通过促进信息流动，网络优化过程更加稳定，从而支持整体架构中添加多个阶段。

图 (c ) 阶段1与阶段2之间的跨阶段特征融合（CSFF）；(d) 阶段2与最后阶段之间的跨阶段特征融合（CSFF）。

3.3 监督注意力模块

近期的多阶段图像复原网络[70,88]直接在每个阶段预测一幅图像，并将其传递到下一阶段。相比之下，我们提出了一种监督注意力模块（SAM），其位于每两个阶段之间，有助于显著提升性能。SAM的示意图如图4所示，其贡献体现在两方面：

提供逐级监督信号：为各阶段的渐进式图像复原过程提供真实值监督信号；
生成注意力图：通过局部监督预测生成注意力图，抑制当前阶段中不重要的特征，仅允许有用特征传递到下一阶段。

实验部分

该论文提出的多阶段渐进式架构（MPRNet）通过协同设计在多个图像复原任务（去雨、去模糊、降噪）中均表现出色，其实验结果验证了其通用性和高效性。以下是核心实验总结：

实验与结果

多任务性能验证：
- 去模糊 ：在GoPro数据集上达到 32.66 dB PSNR，比前最佳方法Suin等[70]提升0.81 dB；在真实模糊数据集HIDE和RealBlur中，分别提升0.98 dB和0.66 dB，且参数量仅为DMPHN[88]的50%，速度提升13倍。
- 去雨：在Rain100L数据集上PSNR达 36.40 dB，比前最佳MSPFN[37]提升4 dB，参数量减少73%，速度提升2.4倍。
- 降噪：在SIDD数据集上PSNR为 33.64 dB，优于CycleISP[86]（33.45 dB），DND数据集上达32.91 dB，超越SADNet[11]（32.70 dB）。
消融实验：
- 模块重要性：移除监督注意力模块（SAM）导致PSNR下降0.42 dB，移除跨阶段特征融合（CSFF）下降0.18 dB，双模块移除则下降0.63 dB。
- 阶段数影响：从1阶段到3阶段，PSNR逐步提升（29.86→30.49 dB），验证多阶段设计的必要性。
- 子网络设计：早期阶段用编码器-解码器提取全局特征，后期用原始分辨率子网络（ORSNet）保留细节，此组合效果最佳。
效率与轻量化：
- 参数与速度：去雨任务参数量仅为MSPFN的1/3.7，去模糊任务参数量比DMPHN少50%，支持实时处理（如RealBlur-J子集推理时间0.18秒）。
- 阶段灵活性：早期阶段可独立用于低功耗设备（如1阶段PSNR 29.86 dB），接近复杂模型性能。
可视化与泛化：
- 细节恢复：在去雨案例中有效去除雨纹并保留纹理（如图5），去模糊生成接近真实参考图的清晰结果（图6）。
- 跨数据集泛化：仅用GoPro训练的模型在RealBlur-R/J上分别优于DMPHN 0.29 dB和0.28 dB，显示对真实场景的适应性。

结构通用性分析

MPRNet的通用性源于其分阶段协同设计：

多阶段分解：将复杂任务分解为渐进步骤，早期阶段通过编码器-解码器提取全局上下文，后期通过ORSNet保留局部细节，平衡了不同任务的需求（如去雨需高频细节，去模糊需大感受野）。
动态特征筛选：监督注意力模块（SAM）在每阶段生成注意力图，抑制冗余特征，确保关键信息传递（如降噪中区分噪声与真实纹理）。
跨阶段信息融合：CSFF模块横向连接多尺度特征，减少下采样导致的信息丢失，增强模型对多任务（如雨纹、模糊、噪声）的鲁棒性。

结论

MPRNet通过多阶段架构、动态注意力机制和特征融合，在10个数据集上刷新SOTA，同时保持轻量化与高效性，验证了其在多种图像复原任务中的通用性和实用性。