TPAMI2023
问题定义
- 未知图像的退化过程(和之前假定bicubic等一个固定且已知的退化过程相对比),由LR恢复HR;
- 退化来源(不同的图像采集设备,数字信号处理成可见图像的过程中图像处理算法引入的噪声,在图像储存和传输过程中引入的噪声和胶片腐蚀等)
- 方法分类:
-- 基于经典退化模型及其变体的显式建模;
-- 利用外部数据集的数据分布的隐式建模;
EXPLICIT DEGRADATION MODELLING
with external dataset
wo degradation estimation
- 由外部的模型来进行degradation estimation;
- SRMD(super resolution for mutiple degradations)输入LR和degradation map,degradation map是blur kernel被PCA编码为vector然后和噪声 σ \sigma σconcate之后扩展到LR的尺寸,之后UDVD也采用了degradation map;
- DPSR不需要生成degradation map,而是通过最小化基于 y = ( x ↓ s ⊗ k ) + n y = (x\downarrow_s \otimes k) + n y=(x↓s⊗k)+n的目标函数(分解为两个子问题,但是没看懂咋解的),两个子问题分别是deblur, SR + denoising;
- USRNet也是map framework,也是两个子问题,但是所基于的退化建模是 y = ( x ⊗ k ) ↓ s + n y = (x \otimes k)\downarrow_s + n y=(x⊗k)↓s+n,两个子问题是SR + deblur, denoising
- 这类方法主要存在的问题是需要一个准确的模型来进行退化估计,模型的结果比较依赖于准确的估计;
with degradation estimation
- 将SR和degradation estimation统一到一个框架当中;
- IKC提出以迭代的方式进行核估计,首先一个预测网络来初始化kernel,之后一个corrector网络在输入(以当前kernel为条件的SR)的情况下输出kernel residual,之后修正后的kernel重复这个修正的过程;
- DAN提出对IKC的改进,叫corrector和SR网络统一训练,而不是像IKC一样分开单独训练;
- 上面的两种方法可以从domain adaptation的角度进行解释;
- 还有一些方法试图解决迭代耗时的问题;
- DRL-DASR使用无监督学习的方法来训练degradation encoder,获得的degradation representation供SR使用;
- KOALAnet使用dynamic kernel strategy
complex degradation modeling
- 经典的退化模型不能很好的涵盖现实的情况,一些工作采用更大的degradation空间;
- BSRGAN还是使用经典的退化算子,但是顺序是打乱的;
- Real-ESRGAN使用高阶的退化模型,也就是传统的退化模型重复多次,文章中阶数为2;
with internal statistics
- 基于的点是patches of a single image tend to recur within and across different scales of this image;
- 之前的方法:提出MAP framework来估计SR blur kernel,最佳的kernel k是最大化不同尺度的recuring patches的相似度的那个;
- gan-based: KernelGAN将相似度的最大化建模成数据分布;
- flow-based: FKP在latent space进行kernel的求解,而不是pixel space,更加efficiency;
- ZSSR和DGDML-SR自监督的进行训练;
IMPLICIT DEGRADATION MODELLING
- 假如有成对的HR-LR图片对数据集,现在的监督学习可以得到比较好的效果,但是有更加挑战的情况,有两个数据集,HR和不成对的LR,问题变为domain adaptation;
- CinCGAN包含两个cycle,LR-Cycle首先将LR转换到Bicubic LR domain(Clean LR),bicubic LR domain的数据认为是从HR下采样得到的,认为是没有噪声的,两个cycle使用的都是cycle gan,此时训练只能靠discriminator,不能靠成对数据的reconstruction loss,训练不稳定;
- b中的训练策略是将L2H和H2L统一到一个框架当中,其中L2H使用的是成对的数据,H2L使用的是不成对的数据;
- 上面的方法生成的LR和真实的LR可能会存在较大的差异,DASR将生成的LR和真实的LR都加入到SR模型的训练当中,使用domain distance weighted supervision来对生成的LR赋予不同的权重,权重基于LR discriminator;