[论文阅读] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

文章目录

一、前言
二、主要贡献
三、Introduction
四、Methodology
- [4.1 Motivation ：](#4.1 Motivation ：)
- [4.2Framework Overview.**](#4.2Framework Overview.**)

一、前言

通信作者是香港理工大学 & OPPO研究所的张磊教授，也是图像超分ISR的一个大牛了。论文如下
SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution[paper][code]

二、主要贡献

提出语义感知的方式来保持Real ISR 中的语义保真度。主要包括以下步骤

训练退化感知提示词提取器(degradationaware prompt extractor) 可以在大的退化图像中同时生成软语义提示词和硬语义提示词，提升T2I模型生成充满细节且语义准确的结果。
在推理阶段，将LR 图像的信息融入初始采样噪声，缓解扩散模型产生过多额外细节的趋势。

三、Introduction

一些常规的介绍。数据方面从单一退化到多种退化，模型方面从GAN发展到了DDPMs。由于大规模预训练的文本到图像模型(T2I)包含大量的文本图像配对数据，包含了丰富的自然图像先验，因此需要作者开始挖掘这种模型的潜力。StableSR、PASD、DiffBIR就是利用T2I模型作为预训练，进行Real-ISR任务。但是他们存在一定局限性，例如StableSR和DiffBIR 仅依靠LR图像作为控制信号，忽略了语义文本信息在预训练的T2I模型中的作用，PASD模型尝试使用现成的high-level模型提取语义提示词作为额外的控制信息，但是如果LQ图像包含太多物体或者退化太多严重，这个方式就会失效。

这篇工作

这篇文章深入研究如何提取如何才能更有效的提取提示词来充分利用T2I模型的潜力，并总结了两个关键点：1、提示词应该覆盖尽可能多的对象，帮助模型理解不同的局部区域，2、提示词应该是退化感知的，要避免错误的语义恢复结果。

基于这两点，作者提出这个方法Se mantic-aware SR (SeeSR)，这个模型可以使用高质量的语义提示词来增加T2I模型在Real-SR方向上的潜力，这个方法包括两个阶段。1、微调语义提示词提取器，使它获得退化感知能力。2、语义提示词、LR图像共同输入T2I模型进行精细的控制，其中推理阶段还将LR图像的信息嵌入到初始采样噪声中避免生成过多的随机细节。

四、Methodology

4.1 Motivation ：

为了释放预训练的 T2I 模型的生成潜力，同时避免 Real-ISR 输出中的语义失真！

作者研究了三种语义提升风格，分别是 classification-style, caption-style ,tag-style. 。经过对比，发现他们有如下的特点：

作者认为classification-style 缺少局部物体的信息，caption-style 会出现介词和副词，影响注意力，在存在降质的前提下，有可能语义提示错误导致错误的结果；tag-style 可以提供大量的物体信息，但是有着和caption-style 一样的问题，在降质情况下，可能会导致错误的语义信息。

具体的比较可以看图1，不同种类提示词的结果：

作者认为，可以在tag-style基础上加上降质感知就可以得到较好的结果。

4.2Framework Overview.**

基于上述讨论，作者确定了整体的任务框架，主要目的是提取高质量的tag-style 提示词用来发挥T2I模型的潜力。下图是整体的任务框架。

首先是学习退化感知提示词提取器degradation-aware prompt extractor (DAPE)，这个提取器包括image encoder 和 tagging head。这个提取器的目的就是让LR提取的提示词和HR提取的提示词尽可能接近。然后输出两个特征，分别是feature representations 以及 tags。这两个东西用来控制T2I模型的生成过程。

第一阶段学习DAPE模块，使用LR、HR的输出作为约束

第二阶段是将提示词以及LR image 通过交叉注意力模块控制预训练T2I模型。

最后是细节的处理，在推理阶段，LR的信息嵌入到初始采样噪声中，作者说这样是很有效果的，具体对比图如下

如果没有LRE模块，那么可能将一些退化增强为细节，如果有这个模块，那么整体生成就更加正常了。

具体实验图见论文