读论文:DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior

DiffBIR 发表于2023年的ICCV,是一种基于生成扩散先验的盲图像恢复模型。它通过两个阶段的处理来去除图像的退化,并细化图像的细节。DiffBIR 的优势在于提供高质量的图像恢复结果,并且具有灵活的参数设置,可以在保真度和质量之间进行权衡。网络结构图如下所示:

  • 优化的痛点问题:

  • 平衡扩散模型内在具有的真实感先验 以及图像复原任务所需要的保真度要求。

  • two stage 的网络总体架构

  • stage one:去除退化的预训练模型

  • SwinIR 的结构(8个残差Swin Transformer block,每个RSTB包含6个Swin Transformer Layers (STL));

  • 处理多种任务:模糊,噪声,压缩伪影和低分辨率(二阶退化采用经典退化模型:模糊-调整大小-噪声过程两次)

  • 3 × 3卷积层进行浅层特征提取;深度特征提取采用多个残差Transformer块(低分辨率空间)。

  • stage two:利用生成先验进行图像重建

  • Stable Diffusion 的方法(Stable Diffusion 2.1-base 3,并进行微调);

  • 扩散和去噪过程在潜在空间中进行(类似LDM);

  • LAControlNet :使用孪生encoder来控制decoder生成图像的保真度。在微调自己的模型过程中,就是微调 LAControlNet 的参数(和 ControlNet 一样的0卷积策略)。

  • 颜色偏移问题

  • ControlNet使用从头开始训练的附加条件网络来编码条件信息;LAControlNet训练有素的VAE编码器能够将条件图像投影到与潜在变量相同的表示空间中:该策略显著减轻了潜在扩散模型中内部知识与外部条件信息对齐的负担。在实验中,直接使用ControlNet进行图像重建会导致严重的颜色偏移。

  • 保真度-真实性权衡引导

  • 在扩散模型的公式中,通过移项变换是可以直接由第 t 时间步的隐状态 zt 直接得到原始的干净图像 z0 的估计的,如下式:

  • 将基于潜在的损失D_latent定义为潜在图像引导与估计的干净潜在之间的L2距离,如下式:

  • 上述引导可以迭代地强制潜在特征之间的空间对齐和颜色一致性,并引导生成的潜在保留参考潜在的内容,实现从生成的输出到更平滑的结果的过渡。

  • stage one 中的数据退化细节

  • 退化模型在某一阶段包括三个操作:模糊、调整大小和噪声。模糊。我们利用各向同性高斯模糊或各向异性高斯模糊具有相同的概率。模糊核的大小遵循7 ~ 21的均匀分布,第一次退化过程的模糊σ均匀采样在0.2 ~ 3之间,第二次退化过程的模糊σ均匀采样在0.2 ~ 1.5之间。调整大小。我们考虑了多种调整算法,包括面积调整、双线性插值和双三次调整。对于第一次降解过程,调整尺寸的比例因子遵循0.15至1.5的均匀分布,对于第二次降解过程,比例因子遵循0.3至1.2的均匀分布。噪音。我们结合了高斯噪声、泊松噪声和JPEG压缩噪声。高斯噪声的尺度在第一次退化过程中均匀采样在1 ~ 30之间,在第二次退化过程中均匀采样在1 ~ 25之间。在第一次和第二次退化过程中,泊松噪声的尺度分别在0.05 ~ 3和0.05 ~ 2.5之间随机采样。JPEG压缩的质量遵循从30到95的均匀分布。此外,我们还结合了盲人脸恢复中所采用的退化设置。具体来说,我们考虑一个大的降采样范围[1,12],和一个大的模糊核范围,其sigma在[0.1,12]以内。这样可以训练生成模块在大范围内弥补信息丢失。

相关推荐
Elastic 中国社区官方博客1 小时前
Elastic AI agent builder 介绍(三)
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
这张生成的图像能检测吗2 小时前
(论文速读)YOLA:学习照明不变特征的低光目标检测
图像处理·人工智能·目标检测·计算机视觉·低照度
ZPC82102 小时前
opencv 获取图像中物体的坐标值
人工智能·python·算法·机器人
亚里随笔2 小时前
AsyPPO_ 轻量级mini-critics如何提升大语言模型推理能力
人工智能·语言模型·自然语言处理·llm·agentic
coding_ksy2 小时前
基于启发式的多模态风险分布越狱攻击,针对多模态大型语言模型(ICCV 2025) - 论文阅读和解析
人工智能·语言模型
算家计算2 小时前
5年后手机和APP将成历史?马斯克最新预言背后:端云协同与AI操作系统的未来架构
人工智能·云计算·资讯
多恩Stone3 小时前
【3DV 进阶-5】3D生成中 Inductive Bias (归纳偏置)的技术路线图
人工智能·python·算法·3d·aigc
HaiLang_IT3 小时前
2026 人工智能与大数据专业毕业论文选题方向及题目示例(nlp/自然语言处理/图像处理)
大数据·人工智能·毕业设计选题
minhuan3 小时前
构建AI智能体:八十二、潜藏秩序的发现:隐因子视角下的SVD推荐知识提取与机理阐释
人工智能·svd推荐·隐因子·推荐模型