摘要
本文提出了一种基于潜在扩散模型 (LDM)的全自动一体化图像修复框架 ,旨在解决多种退化问题(如噪声、模糊、低分辨率、压缩伪影 等)的联合修复挑战。现有方法通常针对单一或有限类型的退化进行优化,导致在复杂混合退化 场景下表现受限。为此,我们设计了一个统一的生成模型 ,通过在扩散过程中引入可学习的退化嵌入(degradation embedding)机制 ,使模型能够自适应地感知并修复不同类型的图像退化。具体而言,我们通过以下创新点实现这一目标:(1) 提出多任务退化编码器 ,将退化特征与图像内容解耦(分开处理) ,从而增强模型对复杂退化的表征能力;(2) 开发动态噪声调度策略,在扩散过程中自适应调整退化特征的注入强度 ,以平衡修复质量与生成稳定性;(3) 构建跨层级特征融合模块 ,通过潜在空间中的多尺度信息交互 (不同层级的特征 )提升细节恢复能力。实验表明,我们的方法在多个图像修复基准数据集(如Real-ESRGAN、Denoising、Deblurring等)上均达到最先进性能,且在处理混合退化场景时展现出显著优势。此外,通过消融实验验证了各模块设计的有效性,并证明了模型在真实场景应用中的泛化潜力。
1 引言
恢复场景细节 并提升图像质量 通常是任何计算机视觉系统的首要步骤 ,其显著影响整个系统的性能。根据实际运行环境和信号处理流程,现实世界中的计算机视觉系统所采集的图像通常会经历多种未知退化,例如噪声、分辨率损失、运动模糊、散焦、色彩失衡、色差、雾霾、眩光、畸变等。
现有的图像修复方法通常针对单一或有限类型的退化(如去模糊[29,78] 、去噪[56,93]、去雨[31,59]、超分辨率[9,71]、低光照增强[45,92]、去雨滴[52]、去雾[54,64]等)设计专用模型。尽管这些单任务方法在其特定任务中取得了良好效果,但在复杂现实场景中面临多重未知退化或需要多步骤增强时,其性能显著受限。
本文探索了一种能够处理单张图像多重未知退化的通用模型 。该模型需具备以下能力:(1) 分解 并区分 未知退化;(2) 在任务无关框架中修复 多种退化;(3) 理想情况下允许用户根据视觉偏好动态调整修复结果。尽管已有相关研究尝试解决类似问题,但均未同时满足上述三点要求。
近期工作[16, 83, 91]尝试通过训练图像分类器 评估未知退化,并基于分类结果显式选择特定修复模型 [11,40,86]。然而,这类方法需为每个任务单独训练模型,且主要聚焦于少量任务(例如3类任务)。实验表明,在包含广泛退化类型的大规模数据集(需要识别的图像质量问题种类很多 )中,仅依赖图像信息训练精确的退化分类器具有挑战性 (见表1)。
另一类工作尝试通过生成模型先验 (如生成对抗网络(GAN)反演、矢量量化码本、潜在扩散模型等)将多种修复方法统一到单模型中[33,76]。然而,这些方法依赖已知退化公式,或仅能处理预定义的小范围单一退化[38,51],无法隐式区分多重未知退化。
3 我们的方法
图2展示了提出的 AutoDIR(基于潜在扩散的全自动一体化图像修复) 的整体流程图,这是一种能够自动检测和处理图像中多种未知退化的统一模型。AutoDIR 包含两个主要阶段:
- 语义无关盲图像质量评估(SA-BIQA):该阶段自动识别输入图像中的主要退化类型(如噪声、模糊、雾气等),并生成相应的文本提示,标记为e_auto,随后在图像修复过程中使用。
- 全栈图像修复(AIR):该阶段利用结构修正潜在扩散模型(SC-LDM),根据来自 SA-BIQA 的文本嵌入e_auto 或用户定义的开放式词汇指令 e_user 引导生成修复后的图像I_res。
文本编码器部分 简单来说就是把文字的含义转化到语义空间里面
图像编码器部分 简单来说就是把图像的特征提取出来也转到语义空间里
直接采用预训练的 CLIP 模型的文本编码部分Text Encoder。CLIP 的文本编码器通过大规模图文对齐任务训练,能够将自然语言描述映射到与图像嵌入对齐的语义空间 。
对每个退化类型提示(如 "noise"),文本编码器将其转换为固定维度的嵌入向量。
在 SA-BIQA 阶段的训练过程中,文本编码器的冻结参数 ,仅微调图像编码器(Image Encoder)。这确保了文本嵌入的语义一致性,避免破坏 CLIP 预训练的跨模态对齐能力。
语义空间 是一个高维向量空间,其中 图像嵌入 (图像的特征向量)和 文本嵌入 (文本的特征向量)通过预训练被映射到同一空间。
对齐(Alignment) 指图像和与之相关的文本描述在语义空间中的向量距离更近。
图像"模糊的雨天街道"与文本"需要去雨和去模糊"的嵌入向量也会被对齐。
CLIP 的文本编码器将每个文本提示转换为固定维度的嵌入向量 E
"需要去噪"会被编码为一个向量,表示该文本在语义空间中的位置。
CLIP 的图像编码器将图像转换为嵌入向量 E ,表示图像的全局特征
在 AutoDIR 模型中,文本编码器和图像编码器的语义空间对齐 是通过 CLIP 模型的对比学习机制 和 微调阶段的语义无关约束 共同完成的。具体来说:
(1) CLIP 预训练的跨模态对齐
- 预训练基础 :
CLIP(Contrastive Language-Image Pretraining)模型本身通过大规模图文对数据训练,将图像和文本映射到共享的语义空间 。- 文本编码器:将文本描述(如"需要去噪")编码为语义向量。
- 图像编码器:将图像特征编码为同一语义空间中的向量。
- 对比学习目标:在预训练阶段,CLIP 通过最大化匹配图文对的相似度、最小化不匹配对的相似度,实现跨模态对齐。