DarkIR: Robust Low-Light Image Restoration——鲁棒的低光照图像复原

本文提出了一种高效、轻量的多任务神经网络 DarkIR ，用于**联合解决夜间或低光照场景下的图像去噪、去模糊与低光照增强（LLIE）**三大问题。核心贡献包括：

非对称编码器-解码器架构：
- 编码器在频域利用傅里叶幅度信息快速完成低光照增强；
- 解码器在空间域通过空洞大核注意力（Di-SpAM）去除模糊并恢复细节。
任务专用模块设计：
- EBlock（编码器）结合空间注意力与频域MLP；
- DBlock（解码器）采用空洞深度卷积扩大感受野，参数量与计算量显著降低。
复合损失函数 ：

结合像素L1、感知LPIPS、边缘梯度与低分辨率引导损失，确保高保真与视觉自然。

实验结果：
- 在 LOLBlur、LOLv2、Real-LOLBlur 等数据集上PSNR 提升 1 dB 以上 ，参数比 LEDNet 少 55% ，比 Restormer 少 88%；
- 在真实夜间模糊图像上泛化良好，推理速度显著优于现有方法。

简言之，DarkIR 以更低的计算成本 实现了夜间图像去噪、去模糊与增强的统一处理 ，为移动端计算摄影提供了新的实用基线。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

项目地址在这里，如下所示：

摘要

夜间或暗光环境下拍摄的照片通常存在噪声、亮度不足和模糊等问题，这是由于环境昏暗以及普遍采用长曝光所致。尽管去模糊与低光照图像增强（LLIE）在这些条件下密切相关，但现有图像复原方法大多将这两个任务分开处理。本文提出了一种高效且鲁棒的神经网络，用于多任务低光照图像复原。与当前流行的基于 Transformer 的模型不同，我们设计了新的注意力机制，以扩大高效 CNN 的感受野。与先前方法相比，我们的方法在参数量和 MAC 运算量上均显著降低。我们的模型 DarkIR 在 LOLBlur、LOLv2 和 Real-LOLBlur 等主流数据集上取得了新的最先进结果，并能在真实夜间与暗光图像上实现良好的泛化。

图 1

左侧：低光照图像带模糊；RetinexFormer [3]；DarkIR（本文）

右侧：低光照图像无模糊；LEDNet [74]；DarkIR（本文）
图注：以往的低光照图像增强（LLIE）与复原方法对模糊和光照变化不鲁棒。我们的多任务模型能够在真实低光照、噪声和模糊条件下复原图像。请放大查看细节。

1. 引言

在夜间或低光照条件下，图像成像过程可表示为：

y=γ(x⊗k)+n,

其中 y 为观测到的暗图像，x 为无扰动的真实场景，k 表示镜头（点扩散函数）模糊核，n 为加性传感器噪声，γ 用于控制动态范围与像素饱和。⊗ 表示卷积算子。

与白天相比，低光照下的噪声（散粒噪声与读出噪声）显著更高。夜间摄影时，相机通常使用长曝光（慢快门）以允许更多光线进入传感器，但这会导致重影与模糊伪影。这些退化在智能手机上尤为明显，因其光圈固定且光学系统受限。因此，联合低光照增强与去模糊对移动计算摄影至关重要 [12, 74]------见图 1。

在任何情况下，拍摄的图像都会存在一定程度的噪声与模糊 [13]。使用三脚架可减少模糊；若再辅以适当照明，则可显著降低噪声 [1]。然而，如今大多数照片由（手持）智能手机拍摄。受限于传感器尺寸与光学系统，智能手机相比无反相机（DSLM）需要更复杂的图像信号处理器（ISP）[10, 12]。尽管智能手机摄影质量仍不及 DSLM，但低层计算机视觉与计算摄影的最新研究正逐步缩小这一差距。低光照图像增强（LLIE）[3, 14, 31, 32, 53, 73]、图像去模糊 [21, 25, 43, 46] 与夜间摄影增强 [48, 74] 已成为热门研究方向。

例如，抑制手抖引起的模糊已在低光照场景中得到广泛研究 [30, 71]。然而，这些任务通常被单独解决：最先进的去模糊方法在夜间图像上泛化性差，而最佳的低光照增强方法又无法有效去除显著模糊。这带来明显局限：需要多个任务专用模型依次微调、存储与部署，限制了其在真实场景中的应用。

据我们所知，极少有工作以端到端方式联合解决去噪、去模糊与 LLIE 这三大任务 [6, 36, 72, 74]，其中 LEDNet [74] 最为突出。我们专注于这一研究方向，因为利用退化之间的相关性可在图像重建、可用性与效率方面取得最佳性能。

我们的贡献

我们提出了一种在空间域与频域同时操作的卷积神经网络（CNN）。在空间域，我们通过大感受野空间注意力解决噪声 n 与非均匀模糊 k ；在傅里叶域，借助其全局特性，可轻松增强低光照条件 [29, 51]。我们的贡献总结如下：

设计了一种轻量级神经网络，融合频域注意力与大感受野注意力，联合利用空间与频域信息。
我们的模型 DarkIR 在 LOLBlur 和 Real-LOLBlur 数据集上取得新的最先进结果，相比 LEDNet [74] PSNR 提升 +1 dB，同时计算量更低。
DarkIR 为夜间/暗光多任务图像复原提供了新的基线。

2. 相关工作

图像去模糊

数十年来，研究人员致力于重建清晰场景。去模糊分为盲去模糊与非盲去模糊：非盲方法已知模糊核 k （或 PSF），而盲方法无任何先验。近年来，大量基于深度学习的方法被提出 [25, 43]，在盲与非盲场景均超越传统方法。非盲方法仅需模糊-清晰图像对即可训练，无需估计 PSF 或传感器信息，具有传感器无关性，可处理来自不同设备的 sRGB 图像。

如今，多数方法基于卷积神经网络（CNN）[4, 25, 42, 66]。DeblurGAN [25] 使用生成对抗网络（GAN）解决该问题。更近的工作 [24] 实现了基于频域的高效 Transformer 去模糊。此外，还有迭代方法与扩散模型 [36]。

低光照图像增强（LLIE）

早期方法依赖图像统计或先验信息 [2, 18]，大多基于著名的 Retinex 理论 [26]。随着深度学习发展，LLIE 方法转向 CNN，如 RetinexNet [56]（及其 LOL 数据集）、ZeroDCE [16] 和 SCI [39]。近期方法探索 Transformer 的潜力，如 RetinexFormer [3]，或利用傅里叶频域信息增强图像幅度，如 FourLLIE [51]。

低光照模糊增强

尽管图像去模糊与低光照增强均备受关注，但同时解决这两个任务极具挑战，文献中极少涉及 [6, 36, 72, 74]。NBDN [6] 提出非盲网络增强夜间饱和图像，指出以往方法在处理噪声或饱和区域时存在问题。LEDNet [74] 假设图像同时存在低光照与模糊，这一假设符合智能手机在暗光下需长曝光的现实。作者设计了编码器-解码器网络，并发布了 LOLBlur 与 Real-LOLBlur 数据集。

3. 方法

我们遵循 Metaformer [65] 设计神经网络，将 Transformer 架构简化为两个组件：全局注意力（token mixer）与前馈网络（FFN，MLP）。典型模块公式为：

我们针对 LLIE 与去模糊任务改进了 Metaformer 结构。

低光照增强 可在频域高效完成。

诸多工作 [29, 51] 证明，低光照条件与图像在傅里叶域的幅度高度相关。因此，仅增强幅度（不改变相位）即可显著校正光照。该性质在不同分辨率均成立 [29]，故可在低分辨率估计增强图像并上采样。
锐化与去模糊 通常需要大感受野，可通过下采样提取深层特征实现------如 NAFNet [7]。另一种方案是使用大卷积核 [35]，但这会增加计算复杂度与内存需求。

DarkIR 模型

图 2 展示了我们的模型。与多数方法不同，我们在编码器与解码器使用不同模块。此非对称设计的核心思想是：在编码器低分辨率阶段完成低光照增强，在解码器阶段去模糊，类似 LEDNet [74]。解码器利用编码器提供的已增强特征，专注于上采样并提升低分辨率重建 x^↓8 的清晰度。

编码器模块 用于恢复低光照，工作在傅里叶域 [29, 51]。
解码器模块 专注于空间域，采用空洞卷积扩大感受野。

通过任务专用模块，我们减少了模块数量，显著降低参数量与计算量（MACs/FLOPs）。

为确保编码器执行低光照增强，如图 2 所示，编码特征经线性组合（卷积层）生成中间图像 x^↓8 。我们利用该中间输出增加损失项进行正则化。良好的低分辨率表示可确保频域幅度已正确增强。

3.1 低光照增强编码器

我们设计的编码器模块（EBlock）利用傅里叶信息增强低光照，遵循 Metaformer [65]（及 NAFBlock [7]）结构。模块包含两部分：空间注意力模块（SpAM）与频域前馈网络（FreMLP）。

SpAM 类似 NAFBlock [7]，采用倒置残差块与简化通道注意力（SCA）。不使用激活函数，而采用简单门控机制，使模型在频域增强前提取有意义的空间信息。
FreMLP 依据 [36, 51]，图像光照信息主要存在于频域幅度。我们先做快速傅里叶变换（FFT），仅对幅度操作，再通过逆 FFT（IFFT）回到空间域。FreMLP 在此作为额外注意力机制，相比空间域 MLP（如通道 MLP [65]）更具优势。

编码器使用步长卷积下采样特征。每级分辨率减半，因此深层可使用更多编码器模块而不显著增加运算量。

最终，编码器向解码器提供已增强特征，并给出低分辨率清晰图像估计 x^↓8 （分辨率为原图 1/8）。尽管分辨率低，但光照（幅度）跨尺度一致 [29]。

3.2 去模糊解码器

解码器模块（DBlock）专注于空间变换。输入为 x^↓8 的深层表示，因此假设：(1) 解码器需上采样该初始估计；(2) 解码器需减少模糊并提升锐度，因光照已由编码器校正。

模块仍遵循 Metaformer 结构 [65]：

3.3 损失函数

除新模块设计外，损失函数也发挥了关键作用。我们结合失真损失与感知损失优化模型 f 。

4. 实验结果

4.1 数据集

LOLBlur [74]：大规模合成数据集，含 10 200 训练对、1 800 测试对。通过帧平均合成模糊，并用 EC-Zero-DCE（Zero-DCE [16] 变体）降低亮度。使用含真实传感器噪声的版本，提升真实场景鲁棒性。
Real-LOLBlur [74]：真实世界测试集，482 张夜间模糊图像，选自 RealBlur [46]，无真值。
LOLv2 (real) [64]：689 对低/高光照图像训练，100 对测试。
LOLv2 (synthetic)：900 对训练，100 对验证。
LSRW [19]：含 Nikon DSLM 与 Huawei 智能手机图像。
- LSRW-Nikon：3 150 训练对，20 测试对。
- LSRW-Huawei：2 450 训练对，30 测试对。

4.2 结果

我们在 LOLBlur 数据集上定量与定性评估 DarkIR。补充材料提供实现细节。我们重新训练了部分通用 SOTA 方法，并与 LEDNet [74] 及本文网络对比。评估分为三类：

LLIE → 去模糊：Zero-DCE [16]、RUAS [31]、RetinexFormer [3] → MIMO-UNet [8] 或 NAFNet [7]。
去模糊 → LLIE：DeblurGAN-v2 [25]（RealBlur）、MIMO-UNet [8] 或 NAFNet [7]（GoPro）→ Zero-DCE [16] 或 RetinexFormer [3]。
端到端训练：在 LOLBlur 上重新训练的 KinD++ [70]、DRBN [63]、RetinexFormer [3]；去模糊网络：DeblurGAN-v2 [25]、NAFNet [9]、MIMO-UNet [8]、Restormer [66]。
多任务训练：联合 LOLBlur、LOLv2、LSRW 训练（all-in-one 策略 [11, 28, 45, 68]）。结果见表 3、4。DarkIR-mt 在保持 LOLBlur 性能（26.62 dB，仅降 0.4 dB）的同时，超越以往仅对光照与噪声鲁棒的 LLIE 方法。

评估指标