SSL: A Self-similarity Loss for Improving Generative Image Super-resolution
Abstract
Generative adversarial networks (GAN) and generative diffusion models (DM) have been widely used in real-world image super-resolution (Real-ISR) to enhance the image perceptual quality. However, these generative models are prone to generating visual artifacts and false image structures, resulting in unnatural Real-ISR results. Based on the fact that natural images exhibit high self-similarities, i.e., a local patch can have many similar patches to it in the whole image, in this work we propose a simple yet effective self-similarity loss (SSL) to improve the performance of generative Real-ISR models, enhancing the hallucination of structural and textural details while reducing the unpleasant visual artifacts. Specifically, we compute a self-similarity graph (SSG) of the ground truth image, and enforce the SSG of Real-ISR output to be close to it. To reduce the training cost and focus on edge areas, we generate an edge mask from the ground-truth image, and compute the SSG only on the masked pixels. The proposed SSL serves as a general plug-and-play penalty, which could be easily applied to the off-the-shelf Real-ISR models. Our experiments demonstrate that, by coupling with SSL, the performance of many state-of-the-art Real-ISR models, including those GAN and DM based ones, can be largely improved, reproducing more perceptually realistic image details and eliminating many false reconstructions and visual artifacts.
在图像处理领域,图像超分辨率(Image Super-Resolution, ISR)是一项基础且重要的任务,其目标是从低分辨率(Low-Resolution, LR)输入图像中恢复出高分辨率(High-Resolution, HR)对应图像,同时保持内容的高保真度。这一技术广泛应用于数字摄影、高清显示、医学图像分析、遥感成像等多个领域。自SRCNN(Super-Resolution Convolutional Neural Network)首次将卷积神经网络(CNN)引入ISR任务以来,基于深度学习的ISR方法取得了显著进展。然而,现有的方法在处理现实世界图像时仍面临诸多挑战,尤其是图像退化过程复杂多样,导致训练好的模型难以有效泛化到实际场景中。
传统方法与生成模型的局限
早期的研究主要集中在基于简单退化模型(如双三次插值、高斯模糊后下采样)的合成LR-HR图像对上训练ISR模型。这些方法通过设计复杂的网络结构(如残差连接、密集连接、通道注意力等)来改进ISR性能。然而,这些方法的性能在很大程度上受限于训练数据的真实性和退化模型的复杂度。近年来,研究者们开始关注现实世界的ISR(Real-ISR)问题,即如何针对实际场景中的复杂退化图像生成高质量的HR图像。
随着生成对抗网络(Generative Adversarial Networks, GANs)和生成扩散模型(Generative Diffusion Models, DMs)的兴起,基于生成模型的Real-ISR方法逐渐成为主流。GANs通过引入对抗性损失来促使生成的图像更加逼真,从而提高了ISR图像的感知质量。然而,GANs生成的图像往往存在视觉上不悦的伪影和错误的图像结构,这限制了其在现实应用中的性能。相比之下,DMs凭借其强大的生成先验和细粒度细节恢复能力,在Real-ISR任务中展示了良好的潜力。然而,DMs的高随机性也导致了其输出不稳定,容易生成错误的图像细节。
自相似性损失的提出
针对上述问题,本文提出了一种简单而有效的自相似性损失(Self-Similarity Loss, SSL)来改进生成性Real-ISR模型的性能。该方法的灵感来源于自然图像的一个固有属性:自相似性,即图像中的局部区域往往能在整幅图像中找到多个相似的区域。这种自相似性在许多图像恢复算法中已被用作先验信息来正则化恢复图像。本文利用这一属性,将图像自相似性作为一种强大的惩罚项来监督Real-ISR的训练过程。
具体来说,本文首先计算真实图像(Ground-Truth, GT)的自相似性图(Self-Similarity Graph, SSG),然后迫使生成的Real-ISR图像的自相似性图与之接近。为了降低训练成本并更专注于边缘区域,本文还从GT图像中生成一个边缘掩码,并仅在该掩码覆盖的像素上计算SSG。通过这种方式,SSL可以作为一种即插即用的惩罚项,轻松地应用于现有的Real-ISR模型中,指导它们更有效地利用图像的自相似性信息进行细节重建。
实验结果
实验结果表明,通过将SSL应用于多种最先进的Real-ISR模型(包括基于GAN和DM的模型),可以显著提高它们的性能。与单独使用SwinIRGAN和StableSR等模型相比,在SSL的指导下,这些模型能够生成更加逼真且细节丰富的图像,同时减少了伪影和错误的图像结构。具体来说,SwinIRGAN在单独使用时容易使图像纹理过于平滑并生成错误的细节,而StableSR虽然能恢复更多细节,但仍存在错误的图像结构和伪影。相比之下,结合SSL的StableSR能够同时重建清晰的图像内容和更真实的纹理,从而获得更好的感知质量。
此外,本文还通过大量实验验证了SSL在不同Real-ISR模型中的有效性和通用性。无论是在基于GAN的模型还是基于DM的模型中,SSL都能显著提高其性能,表明该损失函数具有良好的普适性和实用性。