ICLR 2026 | 基于后验采样的图像恢复方法LearnIR:人脸去阴影、去雾

作者: vivo BlueImage Lab

本文入选 ICLR 2026

ICLR(International Conference on Learning Representations)是聚焦机器学习与深度学习等领域的国际顶级学术会议,致力于推动人工智能理论与方法的前沿研究与创新发展。

ICLR 2026 19525篇投稿,接收率约27.4%。

论文主页:

openreview.net/pdf?id=aAb2...

摘要:

真实场景图像复原因复杂异质退化而极具挑战,现有扩散模型方法存在保真度不足、误差累积或依赖未知前向算子等问题。本文提出LearnIR,通过训练轻量网络预测梯度校正分布,实现无需前向算子的扩散后验采样校正;并设计动态分辨率模块,进一步抑制噪声。在多个图像复原基准上,LearnIR的PSNR、SSIM、LPIPS均达到先进水平。

对应的论文已被 ICLR2026 接收!

一、论文主要是针对什么问题?

本文主要针对真实世界图像复原问题,即从受到复杂退化(如雾霾、阴影、噪声、运动模糊等)影响的图像中恢复出高质量、高保真的清晰图像。

问题出现的背景

真实世界中的成像环境往往引入多种异质退化,且这些退化常常同时出现并相互交织,使得图像复原成为一个经典的病态逆问题。

现有基于扩散模型的图像复原方法存在三类核心限制:

  • **条件生成方法:**难以在忠实复原和真实生成之间取得平衡;

  • **基于反演的方法:**将退化图像反演到潜空间的过程中会累积误差,导致与输入明显偏差,且效率低下;

  • **后验采样方法(如DPS):**需要精确已知的前向测量算子 A(例如高斯模糊核、随机掩码等),但在真实场景中该算子通常不可获得,严重限制了实际应用。

二、核心贡献与效果概览

2.1 核心贡献

**1. 可学习的扩散后验采样框架(LearnIR):**提出通过训练轻量级网络直接预测后验采样中的梯度校正项分布,无需已知前向退化算子即可实现扩散后验采样校正,从根本上突破了传统DPS方法的关键限制。

**2. 扩散后验采样校正(DPSC):**利用高斯分布的封闭性,证明了前向过程真实后验与模型预测反向分布之间的偏差服从高斯分布,进而可以通过训练一个轻量网络来拟合该偏差的均值,作为即插即用的正则化项校正扩散轨迹,消除采样过程中的结构偏差和色偏等不一致性。

**3. 动态分辨率模块(DRM):**设计了时间依赖的动态分辨率调度策略,在像素空间中实现"从粗到细"的采样过程------高噪声阶段使用低分辨率捕获全局上下文,低噪声阶段恢复高分辨率精修纹理细节,无需预训练VAE即可简化端到端流水线并降低计算开销。

2.2 关键理论

论文的核心定理(Theorem 1)证明:在DRM潜空间中,DPS梯度正比于模型预测的反向分布与真实前向后验之间的偏差:

利用高斯分布的封闭性,该偏差可以建模为:

其中均值 μ 和方差 σ² 均有解析闭式解。通过训练网络 μ_θ 去拟合解析均值 μ,可以有效地引导采样轨迹与真实后验对齐。

2.3 效果预览

本文公式推导比较多,想了解细节的同学可以直接看原文附录推导过程,先预览下效果吧:

第一排是原始图,第二排是对应处理后的图:

在去雾和去阴影数据集上和一些其他模型的对比效果:

三、论文提出的方法是什么?

LearnIR 框架由两个互补模块组成:

3.1 动态分辨率模块(DRM)

定义时间依赖的缩放因子 s(t),在不同扩散时间步将图像映射到不同分辨率的潜空间:

  • 早期阶段(t≥T/2):对图像进行大尺度下采样(S=Sdown),聚焦全局结构建模;

  • 后期阶段(t≤T/2):恢复原始分辨率(S=Sup),精修高频纹理细节。

使用高效的非可训练双线性插值实现,无需预训练VAE,显著降低计算成本。

3.2 扩散后验采样校正(DPSC)

在标准去噪损失之外引入一致性正则化项:

  • **去噪损失:**约束噪声预测网络 ε_θ 准确估计残差噪声;

  • **一致性损失:**约束校正网络 μ_θ 拟合前向-反向后验偏差的解析均值。

总损失函数:

推理时,DPSC 作为即插即用模块,在每个采样步骤通过 μ_θ 预测梯度校正,自适应修正扩散轨迹。

3.3 训练与推理

训练采用两阶段策略:

  • **Stage 1:**固定分辨率训练(DRM关闭),聚焦学习DPSC梯度校正;

  • **Stage 2:**开启DRM,以更小学习率在动态分辨率下微调。

推理基于残差扩散的平滑等效变换确定稳定采样起点 T',仅需5步采样即可生成高质量结果。

四、实验结果展示

4.1 数据集与设置

实验在5个数据集上进行:ISTD(阴影去除)、O-HAZE/HazyDet/REVIDE(去雾)以及新构建的FaceShadow数据集(人脸阴影去除,含30,000对合成数据 + 1,000对真实数据)。所有评估在单张A100 GPU上完成,采样步数仅为5步。

4.2 阴影去除(ISTD数据集)

LearnIR在mask-based方法中取得最佳表现,与mask-free最优方法相比也具有竞争力。

4.3 去雾任务(O-HAZE / HazyDet / REVIDE)

LearnIR在三个去雾数据集上全面超越所有对比方法,在O-HAZE上PSNR提升 +2.27 dB ,在HazyDet上PSNR提升 +1.65 dB 且SSIM提升 +0.124

4.4 人脸阴影去除(自建的FaceShadow数据集)

LearnIR在合成和真实人脸阴影数据上均大幅领先,PSNR分别提升 +2.44 dB 和 +1.71 dB。

4.5 消融实验

消融实验验证了DPSC和DRM两个模块的有效性:

  • 去除DPSC导致PSNR下降 4.4 dB,说明后验采样校正对消除轨迹不一致至关重要;

  • 去除DRM导致PSNR下降 1.27 dB,验证了动态分辨率策略对全局结构保持的重要性;

  • 同时去除两者,性能大幅下降至22.86 dB,证明两个模块协同配合才能达到最优效果。

4.6 计算效率

DRM使用非可训练的双线性插值,计算开销几乎为零。完整模型仅需5步采样,总推理时间约1.6秒。

vivo BlueImage Lab

蓝图实验室,主要负责移动影像算法创新,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。

致力于不断提升vivo移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。

欢迎持续关注 vivo 影像技术,获取前沿技术创新经验分享与热招岗位信息。

相关推荐
饼干哥哥2 小时前
ChatGPT会员掉了,代充黑幕藏不住了
人工智能·操作系统·产品
ZzT2 小时前
Claude Sonnet 5 来了:Opus 级的能力,Sonnet 的价
人工智能·ai编程·claude
得物技术2 小时前
AI UITester:AI Native 的 UI 自动化测试新范式|得物技术
llm·aigc·测试
用户5191495848452 小时前
CVE-2025-14440 漏洞利用工具 - WordPress 插件认证绕过检测
人工智能·aigc
网易云信2 小时前
网易智企亮相2026上海文创展:重新定义文创潮玩的“生命力”
人工智能·产品
魏祖潇3 小时前
DDD、TDD、SDD——AI 时代工程师的三件秩序乐器
人工智能·ai编程
Bigfish_coding3 小时前
前端转agent-【python】-18 Agent 与本地应用结合:让 AI 操作你的浏览器
人工智能
浮生望3 小时前
JS字符串与回文算法:从包装类到双指针的面试进阶之路
javascript·算法
网易云信3 小时前
OpenClaw最佳实践:部署在圈组的AI团队
人工智能·agent