DarkIR: Robust Low-Light Image Restoration——鲁棒的低光照图像复原

本文提出了一种高效、轻量的多任务神经网络 DarkIR ,用于**联合解决夜间或低光照场景下的图像去噪、去模糊与低光照增强(LLIE)**三大问题。核心贡献包括:

  1. 非对称编码器-解码器架构

    • 编码器在频域利用傅里叶幅度信息快速完成低光照增强;

    • 解码器在空间域通过空洞大核注意力(Di-SpAM)去除模糊并恢复细节。

  2. 任务专用模块设计

    • EBlock(编码器)结合空间注意力与频域MLP;

    • DBlock(解码器)采用空洞深度卷积扩大感受野,参数量与计算量显著降低。

  3. 复合损失函数

    结合像素L1、感知LPIPS、边缘梯度与低分辨率引导损失,确保高保真与视觉自然。

  1. 实验结果

    • 在 LOLBlur、LOLv2、Real-LOLBlur 等数据集上PSNR 提升 1 dB 以上 ,参数比 LEDNet 少 55% ,比 Restormer 少 88%

    • 在真实夜间模糊图像上泛化良好,推理速度显著优于现有方法。

简言之,DarkIR 以更低的计算成本 实现了夜间图像去噪、去模糊与增强的统一处理 ,为移动端计算摄影提供了新的实用基线。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

项目地址在这里,如下所示:

摘要

夜间或暗光环境下拍摄的照片通常存在噪声、亮度不足和模糊等问题,这是由于环境昏暗以及普遍采用长曝光所致。尽管去模糊与低光照图像增强(LLIE)在这些条件下密切相关,但现有图像复原方法大多将这两个任务分开处理。本文提出了一种高效且鲁棒的神经网络,用于多任务低光照图像复原。与当前流行的基于 Transformer 的模型不同,我们设计了新的注意力机制,以扩大高效 CNN 的感受野。与先前方法相比,我们的方法在参数量和 MAC 运算量上均显著降低。我们的模型 DarkIR 在 LOLBlur、LOLv2 和 Real-LOLBlur 等主流数据集上取得了新的最先进结果,并能在真实夜间与暗光图像上实现良好的泛化。

图 1

左侧:低光照图像带模糊;RetinexFormer [3];DarkIR(本文)

右侧:低光照图像无模糊;LEDNet [74];DarkIR(本文)
图注:以往的低光照图像增强(LLIE)与复原方法对模糊和光照变化不鲁棒。我们的多任务模型能够在真实低光照、噪声和模糊条件下复原图像。请放大查看细节。

1. 引言

在夜间或低光照条件下,图像成像过程可表示为:

y=γ(x⊗k)+n,

其中 y 为观测到的暗图像,x 为无扰动的真实场景,k 表示镜头(点扩散函数)模糊核,n 为加性传感器噪声,γ 用于控制动态范围与像素饱和。⊗ 表示卷积算子。

与白天相比,低光照下的噪声(散粒噪声与读出噪声)显著更高。夜间摄影时,相机通常使用长曝光(慢快门)以允许更多光线进入传感器,但这会导致重影与模糊伪影。这些退化在智能手机上尤为明显,因其光圈固定且光学系统受限。因此,联合低光照增强与去模糊对移动计算摄影至关重要 [12, 74]------见图 1。

在任何情况下,拍摄的图像都会存在一定程度的噪声与模糊 [13]。使用三脚架可减少模糊;若再辅以适当照明,则可显著降低噪声 [1]。然而,如今大多数照片由(手持)智能手机拍摄。受限于传感器尺寸与光学系统,智能手机相比无反相机(DSLM)需要更复杂的图像信号处理器(ISP)[10, 12]。尽管智能手机摄影质量仍不及 DSLM,但低层计算机视觉与计算摄影的最新研究正逐步缩小这一差距。低光照图像增强(LLIE)[3, 14, 31, 32, 53, 73]、图像去模糊 [21, 25, 43, 46] 与夜间摄影增强 [48, 74] 已成为热门研究方向。

例如,抑制手抖引起的模糊已在低光照场景中得到广泛研究 [30, 71]。然而,这些任务通常被单独解决:最先进的去模糊方法在夜间图像上泛化性差,而最佳的低光照增强方法又无法有效去除显著模糊。这带来明显局限:需要多个任务专用模型依次微调、存储与部署,限制了其在真实场景中的应用。

据我们所知,极少有工作以端到端方式联合解决去噪、去模糊与 LLIE 这三大任务 [6, 36, 72, 74],其中 LEDNet [74] 最为突出。我们专注于这一研究方向,因为利用退化之间的相关性可在图像重建、可用性与效率方面取得最佳性能。

我们的贡献

我们提出了一种在空间域与频域同时操作的卷积神经网络(CNN)。在空间域,我们通过大感受野空间注意力解决噪声 n 与非均匀模糊 k ;在傅里叶域,借助其全局特性,可轻松增强低光照条件 [29, 51]。我们的贡献总结如下:

  1. 设计了一种轻量级神经网络,融合频域注意力与大感受野注意力,联合利用空间与频域信息。

  2. 我们的模型 DarkIR 在 LOLBlur 和 Real-LOLBlur 数据集上取得新的最先进结果,相比 LEDNet [74] PSNR 提升 +1 dB,同时计算量更低。

  3. DarkIR 为夜间/暗光多任务图像复原提供了新的基线。

2. 相关工作

图像去模糊

数十年来,研究人员致力于重建清晰场景。去模糊分为盲去模糊与非盲去模糊:非盲方法已知模糊核 k (或 PSF),而盲方法无任何先验。近年来,大量基于深度学习的方法被提出 [25, 43],在盲与非盲场景均超越传统方法。非盲方法仅需模糊-清晰图像对即可训练,无需估计 PSF 或传感器信息,具有传感器无关性,可处理来自不同设备的 sRGB 图像。

如今,多数方法基于卷积神经网络(CNN)[4, 25, 42, 66]。DeblurGAN [25] 使用生成对抗网络(GAN)解决该问题。更近的工作 [24] 实现了基于频域的高效 Transformer 去模糊。此外,还有迭代方法与扩散模型 [36]。

低光照图像增强(LLIE)

早期方法依赖图像统计或先验信息 [2, 18],大多基于著名的 Retinex 理论 [26]。随着深度学习发展,LLIE 方法转向 CNN,如 RetinexNet [56](及其 LOL 数据集)、ZeroDCE [16] 和 SCI [39]。近期方法探索 Transformer 的潜力,如 RetinexFormer [3],或利用傅里叶频域信息增强图像幅度,如 FourLLIE [51]。

低光照模糊增强

尽管图像去模糊与低光照增强均备受关注,但同时解决这两个任务极具挑战,文献中极少涉及 [6, 36, 72, 74]。NBDN [6] 提出非盲网络增强夜间饱和图像,指出以往方法在处理噪声或饱和区域时存在问题。LEDNet [74] 假设图像同时存在低光照与模糊,这一假设符合智能手机在暗光下需长曝光的现实。作者设计了编码器-解码器网络,并发布了 LOLBlur 与 Real-LOLBlur 数据集。

3. 方法

我们遵循 Metaformer [65] 设计神经网络,将 Transformer 架构简化为两个组件:全局注意力(token mixer)与前馈网络(FFN,MLP)。典型模块公式为:

我们针对 LLIE 与去模糊任务改进了 Metaformer 结构。

  • 低光照增强 可在频域高效完成。

    诸多工作 [29, 51] 证明,低光照条件与图像在傅里叶域的幅度高度相关。因此,仅增强幅度(不改变相位)即可显著校正光照。该性质在不同分辨率均成立 [29],故可在低分辨率估计增强图像并上采样。

  • 锐化与去模糊 通常需要大感受野,可通过下采样提取深层特征实现------如 NAFNet [7]。另一种方案是使用大卷积核 [35],但这会增加计算复杂度与内存需求。

DarkIR 模型

图 2 展示了我们的模型。与多数方法不同,我们在编码器与解码器使用不同模块。此非对称设计的核心思想是:在编码器低分辨率阶段完成低光照增强,在解码器阶段去模糊,类似 LEDNet [74]。解码器利用编码器提供的已增强特征,专注于上采样并提升低分辨率重建 x^↓8​ 的清晰度。

  • 编码器模块 用于恢复低光照,工作在傅里叶域 [29, 51]。

  • 解码器模块 专注于空间域,采用空洞卷积扩大感受野。

    通过任务专用模块,我们减少了模块数量,显著降低参数量与计算量(MACs/FLOPs)。

为确保编码器执行低光照增强,如图 2 所示,编码特征经线性组合(卷积层)生成中间图像 x^↓8​ 。我们利用该中间输出增加损失项进行正则化。良好的低分辨率表示可确保频域幅度已正确增强。

3.1 低光照增强编码器

我们设计的编码器模块(EBlock)利用傅里叶信息增强低光照,遵循 Metaformer [65](及 NAFBlock [7])结构。模块包含两部分:空间注意力模块(SpAM)与频域前馈网络(FreMLP)。

  • SpAM 类似 NAFBlock [7],采用倒置残差块与简化通道注意力(SCA)。不使用激活函数,而采用简单门控机制,使模型在频域增强前提取有意义的空间信息。

  • FreMLP 依据 [36, 51],图像光照信息主要存在于频域幅度。我们先做快速傅里叶变换(FFT),仅对幅度操作,再通过逆 FFT(IFFT)回到空间域。FreMLP 在此作为额外注意力机制,相比空间域 MLP(如通道 MLP [65])更具优势。

编码器使用步长卷积下采样特征。每级分辨率减半,因此深层可使用更多编码器模块而不显著增加运算量。

最终,编码器向解码器提供已增强特征,并给出低分辨率清晰图像估计 x^↓8​ (分辨率为原图 1/8)。尽管分辨率低,但光照(幅度)跨尺度一致 [29]。

3.2 去模糊解码器

解码器模块(DBlock)专注于空间变换。输入为 x^↓8​ 的深层表示,因此假设:(1) 解码器需上采样该初始估计;(2) 解码器需减少模糊并提升锐度,因光照已由编码器校正。

模块仍遵循 Metaformer 结构 [65]:

3.3 损失函数

除新模块设计外,损失函数也发挥了关键作用。我们结合失真损失与感知损失优化模型 f 。

4. 实验结果

4.1 数据集

  • LOLBlur [74]:大规模合成数据集,含 10 200 训练对、1 800 测试对。通过帧平均合成模糊,并用 EC-Zero-DCE(Zero-DCE [16] 变体)降低亮度。使用含真实传感器噪声的版本,提升真实场景鲁棒性。

  • Real-LOLBlur [74]:真实世界测试集,482 张夜间模糊图像,选自 RealBlur [46],无真值。

  • LOLv2 (real) [64]:689 对低/高光照图像训练,100 对测试。
    LOLv2 (synthetic):900 对训练,100 对验证。

  • LSRW [19]:含 Nikon DSLM 与 Huawei 智能手机图像。

    • LSRW-Nikon:3 150 训练对,20 测试对。

    • LSRW-Huawei:2 450 训练对,30 测试对。

4.2 结果

我们在 LOLBlur 数据集上定量与定性评估 DarkIR。补充材料提供实现细节。我们重新训练了部分通用 SOTA 方法,并与 LEDNet [74] 及本文网络对比。评估分为三类:

  1. LLIE → 去模糊:Zero-DCE [16]、RUAS [31]、RetinexFormer [3] → MIMO-UNet [8] 或 NAFNet [7]。

  2. 去模糊 → LLIE:DeblurGAN-v2 [25](RealBlur)、MIMO-UNet [8] 或 NAFNet [7](GoPro)→ Zero-DCE [16] 或 RetinexFormer [3]。

  3. 端到端训练:在 LOLBlur 上重新训练的 KinD++ [70]、DRBN [63]、RetinexFormer [3];去模糊网络:DeblurGAN-v2 [25]、NAFNet [9]、MIMO-UNet [8]、Restormer [66]。

  4. 多任务训练:联合 LOLBlur、LOLv2、LSRW 训练(all-in-one 策略 [11, 28, 45, 68])。结果见表 3、4。DarkIR-mt 在保持 LOLBlur 性能(26.62 dB,仅降 0.4 dB)的同时,超越以往仅对光照与噪声鲁棒的 LLIE 方法。

评估指标

  • 合成 LOLBlur:PSNR、SSIM(失真指标),LPIPS [69](感知指标)。

  • 真实 Real-LOLBlur:无真值,采用 MUSIQ [23]、NRQM [37]、NIQE [41] 等盲质量评估。

定量与定性结果

表 1 显示,DarkIR 在 PSNR 上比 LEDNet [74] 提升 +1 dB,LPIPS 降低一半,且参数量与计算量更少。图 3 给出视觉对比。

表 2 对比两步流水线,DarkIR 优势明显。图 4 展示更多细节与锐度。

4.3 真实数据评估

在 Real-LOLBlur [74] 上,DarkIR 在 MUSIQ、NRQM、NIQE 上均取得有竞争力的感知分数(表 5)。图 5 展示真实夜间模糊图像的复原效果,可见对运动模糊、传感器噪声、饱和像素与低光照的鲁棒性。

4.4 消融实验

模块配置(表 6)

  • 将 EBlock 替换为 NAFBlock:PSNR 26.51 dB。

  • EBlock 加入相位变换:26.30 dB。

  • 全部使用 DBlock:26.68 dB。

  • 全部使用 EBlock:26.17 dB。

  • 全部使用 NAFBlock:26.24 dB。

  • DBlock 替换为 NAFBlock:26.23 dB。

  • DBlock 移除额外深度卷积:26.63 dB。

  • DarkIR-m:26.90 dB(最佳)。

空间注意力对比(表 7)

  • LKA [17]:PSNR 26.45 dB,参数量 4.06 M,MACs 9.14 G。

  • Di-SpAM (DarkIR-m):27.00 dB,3.31 M,7.25 G。

通道维度缩放(表 8)

  • DarkIR-s (16):26.15 dB,0.872 M,2.04 G。

  • DarkIR-m (32):27.00 dB,3.31 M,7.25 G(最佳效率/性能平衡)。

  • DarkIR-l (64):27.30 dB,12.96 M,27.19 G。

4.5 效率讨论

通过 EBlock 与 DBlock,DarkIR 参数量比 LEDNet [74] 减少 55%,比 Restormer [66] 减少 88%。以 256×256 输入为例:

  • LEDNet:33.74 GMACs

  • Restormer:141.24 GMACs

  • DarkIR:7.25 GMACs(4× 少于 LEDNet,近 20× 少于 Restormer)

因此,DarkIR 在保持 SOTA 性能的同时,更轻量,适合低算力设备。

5. 局限性

尽管我们降低了计算需求,但深度卷积在某些 GPU 架构上算术强度不足 [15],导致推理时间未随运算量减少而显著降低。未来工作将探索低计算量与更快推理的结合。

6. 结论

我们提出了一种多任务低光照增强与复原模型 DarkIR。该网络高效鲁棒,可同时去噪、去模糊并增强暗光/夜间图像。DarkIR 在 LOLBlur、LOLv2 和 Real-LOLBlur 数据集上取得新的最先进结果,并在真实夜间模糊图像上表现良好,且比现有方法更高效。

相关推荐
拾贰_C2 小时前
【python | pytorch | scipy】scipy scikit-learn库相互依赖?
pytorch·python·scipy
BoBoZz192 小时前
PolyDataContourToImageData 3D集合图像转换成等效3D二值图像
python·vtk·图形渲染·图形处理
2401_841495642 小时前
【自然语言处理】关系性形容词的特征
人工智能·python·自然语言处理·自动识别·特征验证·关系性形容词·语言学规则和计算
rebekk2 小时前
Hydra介绍
人工智能·python
青啊青斯2 小时前
python markdown转word【包括字体指定】
开发语言·python·word
拾贰_C2 小时前
【python | pytorch | warehouse】python库scipy与scikit-learn库不兼容?
pytorch·python·scipy
corpse20103 小时前
trae下载依赖包特别慢!!!
开发语言·python
诸神缄默不语3 小时前
Windows系统无法直接用uv安装pyqt5,但可以用uv pip安装
python
中年程序员一枚3 小时前
同时装有Python3.12和Python3.14,历史原因Python3.12出现问题,需要删除,但是删除不干净
python