NTIRE2025 高效4x超分辨率赛道

原文链接：https://arxiv.org/abs/2504.10686

高效超分赛道仅仅有4x超分任务，之前的《NTIRE2025 RAW图像恢复与超分辨率》赛道上三个任务合一：2x超分，去噪，去模糊。三合一的任务更多的trick是分步骤训练，对一个个任务更个击破，高效超分赛道更关注的是如何在进行超分的同时更好的保留细节，因为4x超分相比2x超分，对细节有更高的要求。

高效超分赛道相比4x超分赛道除了画面质量相关的psnr指标外，更关注模型推理速度、模型参数、模型flops，这些在真实的模型工程化上至关重要！

模型提速的主要思路

模型蒸馏 模型蒸馏是一种行之有效的方法，能够在不增加推理阶段计算开销的前提下，维持峰值信噪比（PSNR）指标表现。EMSR 团队仅在基础模型中加入类 ConvLora 算子。与之类似，ESPAN 团队结合参考文献 $42$ 的验证结论，提出采用自蒸馏渐进式学习策略。模型蒸馏是非常好用的小模型优化思路，尤其在小模型泛化能力和有些指标不及大模型的时候，而且可以非常灵活的使用，比如蒸馏输出层，蒸馏中心层，蒸馏注意力层；可以蒸馏学习一个教师模型，还可以蒸馏学习多个教师模型，还可以蒸馏学习后续任务模型(比如后面跟的检测识别模型等)，总结就是当小模型效果达不到预期的时候，这个策略就很好用！
重参数化 重参数化技术在本次竞赛中得到广泛应用。通常在训练阶段，将普通卷积层结合多种基础运算（3×3 卷积、1×1 卷积、一阶与二阶微分算子、跳跃连接等）进行多分支参数化构建；而在推理阶段，可将用于卷积重参数化的多组运算合并为单个卷积。小米 MM、mmSR、HannahSR 等多支顶尖队伍均在其方案中采用了该技术。重参数化可以有效的降低计算量、减小内存/显存读写、算子数量，另外合并后的单个卷积在大部分的npu/bpu等计算平台，非常友好，这点很重要。由于是数学等价代换得到的所以理论上模型推理效果不降，不过这个对量化还是较敏感的。
无参数注意力机制 实践证明，无参数注意力机制可有效提升计算效率。其中，小米 MM 团队基于无参数注意力模块，设计了一种轻量化高速无参数注意力网络，在保证良好峰值信噪比的同时，实现了最短运行耗时。无参数注意力机制很实用，冠军方案EMSR也用到了类似的方法-convloras，值得关注！
多尺度信息融合与层级化模块设计融合多尺度特征信息、采用层级化模块结构，是实现关键特征有效融合的成熟方案。例如，HannahSR、XuPTBoys、ChanSR 等参赛方案，均通过多尺度残差连接与层级模块设计，有效提升了模型重建性能。
网络剪枝网络剪枝发挥了重要作用。ASR、Davinci 等团队采用网络剪枝技术对模型进行适度压缩，在性能无大幅下降的情况下，构建出更加轻量化的网络结构。
新型网络架构探索本次竞赛也开展了全新网络架构的探索。除主流的卷积神经网络与 Transformer 架构外，GXZY AI 团队尝试引入状态空间模型（视觉 Mamba），该架构在上一届 NTIRE 实时超分辨率竞赛中也已得到验证。
其他各类优化技术各参赛团队还尝试了多种创新方案，包括基于神经网络架构搜索、视觉 Transformer、频域处理、多阶段结构设计以及高级训练策略等优化方法。

第一名：EMSR

方法

团队EMSR的整体架构如图1所示，该架构基于领先的高效超分辨率方法SPAN $111$ 。受ConvLora $7$ 的启发，团队提出了SconvLB，该方法将ConvLora整合到SPAB中，在不增加计算复杂度的情况下提升性能。具体而言，给定SPAB中的一个预训练卷积层，他们通过添加Lora层来更新它，并用低秩分解表示：

其中WConvLora表示卷积的更新权重参数，WPT表示卷积的原始预训练参数，X通过随机高斯分布初始化，Y在训练开始时为零。需要注意的是，Lora权重可以合并到主干网络中。因此，ConvLora在推理过程中不会引入额外的计算。

他们采用了预训练的SPAN-Tiny模型 $111$ ，该模型具有26个通道。他们用所提出的SconvLB替换SPAN中的SPAB，并将ConvLora添加到像素洗牌块及其之前的卷积中。在训练过程中，他们冻结卷积的原始权重和偏置，仅更新Lora参数。

优化

为了监督SconvLB的优化，他们采用了一种基于知识蒸馏的训练策略。他们采用基于空间相似性的知识蒸馏 $37$ ，通过在网络多个层对齐空间特征相似性矩阵，将二阶统计信息从教师模型传递给学生模型。

给定从网络第lll层提取的特征，他们首先沿最后两个维度展平张量并计算相似性矩阵Aspatial。然后，基于空间特征相似性的蒸馏损失可以表述为：

其中AS和AT分别是学生网络和教师网络从第l层特征图提取的空间相似性矩阵，∣A|表示相似性矩阵中的元素数量。具体而言，团队在每个SconvLB之后应用蒸馏损失。

除了特征空间的蒸馏损失外，团队还应用了像素级蒸馏损失：

其中T和S分别表示教师网络和学生网络，表示低分辨率图像，上面公式是教师网络和学生网络输出层，也就是上采样后的图像的1范数距离损失。

他们还应用了L2损失：

其中IHR表示地面真实高分辨率图像。上面公式是学生网络输出层和真实的ground truth的损失，实用的是2范数。

总损失为：

训练细节

团队使用DIV2K和LSDIR进行训练。采用随机翻转和随机旋转进行数据增强。训练过程分为两个阶段：

第一阶段：从HR图像中随机裁剪192×192大小的HR图像块，mini-batch大小设置为8。使用Adam优化器，通过最小化上述Ltotal来训练模型。学习率为1×10−4，总共训练30k次迭代。

第二阶段：在第二阶段，团队将HR图像块的大小增加到256×256，其他设置与第一阶段相同。

在整个训练过程中，他们采用指数移动平均（Exponential Moving Average，EMA）策略来增强训练的鲁棒性。

第五名：mbga

架构

团队提出了 ESPAN，它基于 SPAN $110$ 。通过在 A6000 GPU 上对 SPAN 的深度-通道组合进行评估，他们确定将通道数设置为 32 比 28 个通道具有更高的效率。为了减少参数量和浮点运算次数（FLOPs），采用了 6 的深度。此外，在网络输入阶段，使用 9×9 卷积替代了传统的 3×3 卷积，因为他们发现 9×9 卷积在 A6000 上比 3x3 卷积更快。

**通用重参数化。**受 MobileOne $106$ 和 RepVGG $23$ 的启发，团队提出了一个通用重参数化模块（图 4）。该模块由四个 1×1-3×3 卷积分支、一个 1×1 卷积分支和一个 3×3 卷积分支组成。由于经验观察发现跳跃连接会导致训练不稳定，因此省略了跳跃连接。虽然额外的重复分支或 3×3-1×1 卷积分支是可行的，但当前的配置在优化过程中被发现能提供更优越的性能一致性。

自蒸馏与渐进式学习 。受 RIFE $42$ 的启发，自蒸馏被整合到他们的训练流程中。教师模型与学生模型共享相同的主干，但在学生主干上附加了三个额外的 SPAB 模块（图 5）。采用类似于 RIFE 公式的自蒸馏损失来共同训练教师和学生网络。这种设计使教师模型能够学习鲁棒的主干特征。在蒸馏阶段之后，移除学生损失和蒸馏损失组件，并对整个教师模型进行微调。利用预训练的鲁棒教师，采用渐进式学习：从教师主干中逐渐移除额外的 SPAB 模块，最终得到一个与原始学生模型相同的架构。

频率感知损失。由于小模型参数有限，在训练期间，应使模型更多地关注重要（或困难）区域。在他们的方法中，采用了两种类型的频率感知损失。第一种是 DCT 损失。他们使用离散余弦变换（DCT）将 RGB 域转换为频域，然后应用 L1 损失来计算差异。另一种是边缘损失。他们对图像进行模糊处理，然后用原始图像减去模糊图像以获得高频区域。随后，在这个高频区域计算 L1 损失。

训练细节

训练过程包含两个阶段。训练数据集是 DIV2K LSDIR 训练集。通用重参数化在整个过程中使用。

I. 在第一阶段，使用自蒸馏来训练教师模型。

步骤 1 ：团队首先训练一个 2 倍超分辨率模型。从 HR 图像中随机裁剪大小为 256x256 的 HR 图像块，迷你批次大小设置为 64。使用 L1 损失和自蒸馏损失以及 AdamW 优化器，初始学习率设置为 0.0001，并在每 100k 次迭代时减半。总迭代次数为 500k。此步骤重复两次。然后他们遵循相同的训练设置，并使用 2 倍超分辨率模型作为预训练模型来训练 4 倍超分辨率模型。此步骤重复两次。不要开始给模型太大的难度，分步骤进行训练。
步骤 2 ：从 HR 图像中随机裁剪大小为 512x512 的 HR 图像块，迷你批次大小设置为 16。使用 MSE 损失、频率感知损失和自蒸馏损失以及 AdamW 优化器，初始学习率设置为 0.0001，并在每 100k 次迭代时减半。总迭代次数为 500k。此步骤也重复两次。
步骤 3 ：只训练教师模型。从 HR 图像中随机裁剪大小为 512x512 的 HR 图像块，迷你批次大小设置为 16。使用 MSE 损失和频率感知损失以及 AdamW 优化器，初始学习率设置为 0.00005，并在每 100k 次迭代时减半。总迭代次数为 500k。此步骤也重复两次。

II. 在第二阶段，使用渐进式学习来获得最终的学生模型。

步骤 4 ：逐一丢弃额外的 SPAB 模块。从 HR 图像中随机裁剪大小为 512x512 的 HR 图像块，迷你批次大小设置为 16。使用 L1 损失和 AdamW 优化器，初始学习率设置为 0.0001，并在每 100k 次迭代时减半。总迭代次数为 500k。
步骤 5：多次重复以下训练过程直到收敛。从 HR 图像中随机裁剪大小为 512x512 的 HR 图像块，迷你批次大小设置为 16。使用 MSE 损失和频率感知损失以及 AdamW 优化器，初始学习率设置为 0.00005，并在每 100k 次迭代时减半。总迭代次数为 500k。