[论文阅读] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

文章目录

一、前言

通信作者是香港理工大学 & OPPO研究所的张磊教授,也是图像超分ISR的一个大牛了。 论文如下
SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution[paper][code]

二、主要贡献

提出语义感知的方式来保持Real ISR 中的语义保真度。主要包括以下步骤

  • 训练退化感知提示词提取器(degradationaware prompt extractor) 可以在大的退化图像中同时生成软语义提示词和硬语义提示词,提升T2I模型生成充满细节且语义准确的结果。
  • 在推理阶段,将LR 图像的信息融入初始采样噪声,缓解扩散模型产生过多额外细节的趋势。

三、Introduction

一些常规的介绍。数据方面从单一退化到多种退化,模型方面从GAN发展到了DDPMs。由于大规模预训练的文本到图像模型(T2I)包含大量的文本图像配对数据,包含了丰富的自然图像先验,因此需要作者开始挖掘这种模型的潜力 。StableSR、PASD、DiffBIR就是利用T2I模型作为预训练,进行Real-ISR任务。但是他们存在一定局限性,例如StableSR和DiffBIR 仅依靠LR图像作为控制信号,忽略了语义文本信息在预训练的T2I模型中的作用,PASD模型尝试使用现成的high-level模型提取语义提示词作为额外的控制信息,但是如果LQ图像包含太多物体或者退化太多严重,这个方式就会失效。

这篇工作

这篇文章深入研究如何提取如何才能更有效的提取提示词来充分利用T2I模型的潜力,并总结了两个关键点:1、提示词应该覆盖尽可能多的对象,帮助模型理解不同的局部区域,2、提示词应该是退化感知的,要避免错误的语义恢复结果。

基于这两点,作者提出这个方法Se mantic-aware SR (SeeSR),这个模型可以使用高质量的语义提示词来增加T2I模型在Real-SR方向上的潜力,这个方法包括两个阶段。1、微调语义提示词提取器,使它获得退化感知能力。2、语义提示词、LR图像共同输入T2I模型进行精细的控制,其中推理阶段还将LR图像的信息嵌入到初始采样噪声中避免生成过多的随机细节。

四、Methodology

4.1 Motivation :

为了释放预训练的 T2I 模型的生成潜力,同时避免 Real-ISR 输出中的语义失真!

作者研究了三种语义提升风格,分别是 classification-style, caption-style ,tag-style. 。经过对比,发现他们有如下的特点:

作者认为classification-style 缺少局部物体的信息,caption-style 会出现介词和副词,影响注意力,在存在降质的前提下,有可能语义提示错误导致错误的结果;tag-style 可以提供大量的物体信息,但是有着和caption-style 一样的问题,在降质情况下,可能会导致错误的语义信息。

具体的比较可以看图1,不同种类提示词的结果:

作者认为,可以在tag-style基础上加上降质感知就可以得到较好的结果。

4.2Framework Overview.**

基于上述讨论,作者确定了整体的任务框架,主要目的是提取高质量的tag-style 提示词用来发挥T2I模型的潜力。下图是整体的任务框架。

首先是学习退化感知提示词提取器degradation-aware prompt extractor (DAPE),这个提取器包括image encoder 和 tagging head。这个提取器的目的就是让LR提取的提示词和HR提取的提示词尽可能接近。然后输出两个特征,分别是feature representations 以及 tags。这两个东西用来控制T2I模型的生成过程。

第一阶段学习DAPE模块,使用LR、HR的输出作为约束

第二阶段是将提示词以及LR image 通过交叉注意力模块控制预训练T2I模型。

最后是细节的处理,在推理阶段,LR的信息嵌入到初始采样噪声中,作者说这样是很有效果的,具体对比图如下

如果没有LRE模块,那么可能将一些退化增强为细节,如果有这个模块,那么整体生成就更加正常了。

具体实验图见论文

相关推荐
songyuc5 分钟前
《A Bilateral CFAR Algorithm for Ship Detection in SAR Images》译读笔记
人工智能·笔记·计算机视觉
码界奇点22 分钟前
解密AI语言模型从原理到应用的全景解析
人工智能·语言模型·自然语言处理·架构
余衫马26 分钟前
你好,未来:零基础看懂大语言模型
人工智能·语言模型·自然语言处理·智能体
pingao14137828 分钟前
冰雪环境无忧测:冬季加热激光雪深监测站保障道路安全与气象研究
人工智能·安全
AndrewHZ35 分钟前
【图像处理基石】提升图像通透感:从原理到实操的完整指南
图像处理·人工智能·计算机视觉·cv·对比度·动态范围·通透感
草莓熊Lotso44 分钟前
C++ 方向 Web 自动化测试实战:以博客系统为例,从用例到报告全流程解析
前端·网络·c++·人工智能·后端·python·功能测试
劲墨难解苍生苦1 小时前
spring ai alibaba mcp 开发demo
java·人工智能
程序员霸哥哥1 小时前
从零搭建PyTorch计算机视觉模型
人工智能·pytorch·python·计算机视觉
草莓熊Lotso2 小时前
Linux 基础开发工具入门:软件包管理器的全方位实操指南
linux·运维·服务器·c++·人工智能·网络协议·rpc
IT_陈寒2 小时前
Vue 3性能优化实战:7个关键技巧让我的应用加载速度提升50%
前端·人工智能·后端