NTIRE2025 RAW图像恢复与超分辨率

这两年,业务相关一直在关注low level视觉领域的相关内容,NTIRE比赛是权威又全面。25年超分赛道百花齐放,值得关注。

原文链接https://arxiv.org/pdf/2506.02197

本次挑战赛的目标包括:(1)恢复存在模糊和噪声退化的RAW图像;(2)在未知噪声和模糊条件下,将RAW图像放大2倍。

一些想法

1.主流损失:

损失函数用charbonnier loss最多,有的加入frequency loss共同训练,

2.主流架构:

efficient赛道里面,第四章节nafnet\transformer\mamba的方案都有

第五章节也是,nafnet\transformer等的方案都有:

|--------------|-------------------------|-------------------|--------------|-----------------------------|
| 团队名称 | 模型名称 | 核心架构基座 | 损失函数 | 关键策略 |
| Samsung AI | ERIRNet-S/T | NAFNet | L1 Loss | 知识蒸馏 (Teacher: X-Restormer) |
| Miers | (Modified) SwinFIR-Tiny | Swin Transformer | Charbonnier | 四阶段渐进训练, 重参数化 |
| WIRTeam | Multi-PromptIR | Encoder-Decoder | - | 多尺度Prompt机制 |
| WIRTeam | LMPR-Net | MPRNet | Charbonnier | 多阶段结构, DO-Conv (轻量化) |
| ChickenRun | ER-NAFNet | U-Net (NAFBlocks) | L2 Loss | Mixup + Channel Shift 增强 |

在我们团队的实际工程应用中,基于cnn的nafnet这种结构在bpu/npu等边缘端部署非常有优势。

3.训练策略:

在实际工程应用中,将多个任务合并到一个模型中,是非常有用的提效策略,以前需要部署3个模型:超分,去噪,去模糊,现在一个模型就能搞定,对于节省算力至关重要,在这样的目标下,融合任务的同时进一步提升模型的效果,兼顾去噪的平滑度、去模糊的细节,所以训练策略显得尤为重要,在正确的训练策略的指导下,模型既能在结构上 "和多为一",又能在功能上"分而治之"!

策略一: 逐步进行,逐步增加模型复杂度

策略二:不同阶段使用不同损失,比如第一阶段用charbonnier loss,第二阶段用fft loss训练;这样不同阶段由损失引导模型倾向于不同目标

策略三: 逐步进行,逐步增加任务难度

或者一阶段,先训练不加增强的模型,二阶段再加入bsraw等增强策略,思想也是类似的,逐步增加任务难度!

4. 提示学习:

----一个很好用,很灵活的思想,用起来方法可以五花八门,场景也可以很广泛,很值得关注。

《iterative prompt learning for unsupervised backlit image enhancement》--这篇是把提示学习用到了背光图像增强的任务,我们实际测试过效果不错。

《Multi-PromptIR: Multi-scale Prompt-base Raw Image Restoration》-这篇是本次比赛把提示学习用到了图像修复的任务

轻量化模型整理

1. 比赛中核心轻量化模型与架构

模型名称 所属团队/来源 核心轻量化技术与特点
DSCLoRA 传音多媒体 & 上海交大 卷积低秩适应 (Conv-LoRA):借鉴大模型微调技术,将 LoRA 模块嵌入预训练卷积层;结合知识蒸馏,在不增加推理计算成本的前提下提升性能。
EMSR 竞赛优胜方案 Conv-LoRA + SPAN:结合了低秩更新和无参数注意力机制(Swift Parameter-free Attention);通过重参数化和网络剪枝实现极致轻量化(约26通道)。
SMFFRaw Team XJTU HAFEB 模块:包含重参数化卷积(RepConv)和混合注意力;采用多阶段渐进式训练,在保持高性能的同时通过结构重参数化加速推理。
NAFBN Team NJU BN 融合:基于 NAFSSR 改进,用 Batch Normalization 替换 Layer Normalization,推理时将 BN 层融合进卷积层,显著降低 FLOPs。
ECAN Team CUEE-MDAP 深度可分离卷积 + SE Block:仅 93K 参数量;使用倒残差结构和通道注意力机制,专为极低资源设备设计。
RepRawSR Team EiffLowCVer 重参数化设计:基于 SYEnet 二次开发,训练时多分支,推理时融合为单路卷积;包含 RepTiny(极轻量)和 RepLarge 两个变体。

2. 通用轻量化技术手段

除了具体的模型架构,参赛队伍还广泛使用了以下通用技术手段来压缩模型:

  • 知识蒸馏 (Knowledge Distillation):利用大模型(教师模型)指导小模型(学生模型)学习,例如 DSCLoRA 和 Samsung AI 的方案,让小模型获得接近大模型的性能。
  • 重参数化 (Re-parameterization):在训练时使用复杂的多分支结构(如多尺度卷积),在推理时将其数学等价转换为单路卷积,实现"训练强、推理快"。

RAW图像超分赛道-文章第四章

以下内容按团队分类整理了各方法的损失函数、模型结构和训练策略。

各团队方法详情

4.1 RawRTSR: Raw Real-Time Super Resolution (Team Samsung AI)

表格

维度 详细内容
模型结构 基于 CASR 改进,分为两个变体: 1. Efficient (RawRTSR) :最大特征通道数为 48 。包含去噪模块(下采样-卷积-上采样)和细节增强模块(5层卷积)。 2. General (RawRTSR-L) :通道数增加至 64 ,并引入 Channel Attention 机制防止信息冗余。 核心策略 :采用知识蒸馏 ,教师模型为 X-Restormer,学生模型使用重参数化卷积(Re-parameterized Conv)
训练策略 三阶段训练 : 1. 独立训练 :教师和学生模型分别训练(800 epochs, 256x256 patches)。 2. 特征蒸馏 :使用第一阶段权重初始化,进行特征蒸馏(800 epochs)。 3. 最终训练 :使用 512x512 patches 进行训练。 参数:AdamW优化器,初始学习率 5e-4 (阶段1) / 5e-5 (阶段2)。
损失函数 Stage 1 : �1L1​ Loss。 Stage 2: �2L2​ Loss (用于特征蒸馏)。

4.2 Streamlined Transformer Network... (Team USTC-VIDAR)

表格

维度 详细内容
模型结构 基于 RBSFormer 的轻量化流线型版本。 1. 主分支 :1个 3x3 卷积 + N个级联 Transformer 块 + 上采样块。 2. 残差分支 :仅包含上采样块。 3. 改进点 :采用 InceptionNeXt 块(部分卷积+深度卷积)替代自注意力,使用 ShuffleNet 策略减少 MLP 参数。 配置:N=8, 分组数 G=4。
训练策略 两阶段训练 : 1. Stage 1 :Batch Size=8, Patch Size=192, 训练 300k 步。 2. Stage 2 :Batch Size=64, Patch Size=256, 训练 147k 步。 增强 :随机水平/垂直翻转、转置。 降质:BSRAW 流水线 + 额外 PSF 核。
损失函数 组合损失函数 : Charbonnier Loss + Frequency Loss (权重 0.5)。

4.3 SMFFRaw: Simplified Multi-Level Feature Fusion... (Team XJTU)

表格

维度 详细内容
模型结构 SMFFRaw 网络,包含三个部分: 1. 浅层特征提取 :3x3 卷积。 2. 深层特征提取 :堆叠 HAFEB (Hybrid Attention Feature Extraction Block) 模块。 - 模块内包含:PConv, DWConv, RepConv (推理时重参数化), CA, LKA。 3. 重建 :上采样 + 双线性插值输入残差连接。 变体:Small (0.18M params) / Large (1.99M params)。
训练策略 五阶段渐进式训练 (Progressive Training) : 逐步引入 Mixup、下采样、噪声、模糊等退化因素。 增强 :旋转、翻转、Mixup。 降质 :BSRAW 流水线。 参数:Cosine Annealing 调度器。
损失函数 Stage 1-4 : Charbonnier Loss + Frequency Loss。 Stage 5 : MSE + Frequency Loss。

4.4 An Enhanced Transformer Network... (Team EGROUP)

表格

维度 详细内容
模型结构 基于 RBSFormer 架构。 1. 流程 :浅层特征提取 -> Transformer Blocks (深层特征) -> 3x3 卷积 -> 重建。 2. 设计 :保持 RBSFormer 的三组件结构,直接处理 RAW 图像的 RGGB 排列。 参数:3.3M 参数。
训练策略 端到端训练参数 :Batch Size=8, Patch Size=192。 增强 :随机噪声和模糊退化模式。 硬件:2块 NVIDIA 4090 GPU。
损失函数 两阶段 Loss 切换 : 1. 前 100k 次迭代:L1 Loss 。 2. 后 20k 次迭代(微调):FFT Loss (频率域损失)。

4.5 A fast neural network... (Team NJU)

表格

维度 详细内容
模型结构 基于 NAFSSR 改进,命名为 NAFBN 。 1. 修改点 :重设计 Simple-Gate (CNN+GeLU),移除 FFN 组件。 2. 加速策略 :用 Batch Normalization (BN) 替换 Layer Normalization,以便在推理时融合到卷积层中。 3. 配置:12个 NAFBlocks,宽度为 48。
训练策略 单阶段训练参数 :AdamW 优化器,Batch Size=未明确 (通常由平台决定),训练 50k 次迭代。 增强 :随机裁剪 (32x32)、随机白平衡、随机翻转/旋转、曝光调整、随机下采样 (AvgPool2d 或 Bicubic)。 注意:BN 的动量设为 0.03 以适应小 Batch。
损失函数 L1 Loss

4.6 A efficient neural network baseline report using Mamba (Team TYSL)

表格

维度 详细内容
模型结构 基于 MambaIRv2 的实现(首次用于RAW数据)。 1. 架构 :Embedding dim=32, m=4, n=2(极轻量级)。 2. 核心 :利用 Mamba 模型(State Space Model)的潜力。 3. 特殊设计 :提出了一种针对 Bayer 阵列的中心像素插值下采样法(区别于传统的 AvgPool2d 或 Bicubic)。
训练策略 端到端训练参数 :Batch Size=64, 学习率 8e-4。 降质 :遵循官方流水线(除下采样外),未使用图像增强。 硬件:A100 GPU。
损失函数 文档中未明确列出(通常此类任务默认为 L1 或 MSE,但文中仅提及训练设置)。

4.7 RepRawSR: Accelerating Raw Image Super-Resolution... (Team EiffLowCVer)

表格

维度 详细内容
模型结构 基于 SYEnet 的二次开发,采用重参数化 设计。 1. RepTiny-21k (极轻量):4个特征提取模块,通道数 16,加入 Skip Connections 防止梯度消失。 2. RepLarge-97k :通道数 32,加入 FEBlock 预处理模块。 特点:训练时多分支,推理时融合为单路卷积。
训练策略 多尺度/多阶段策略 : 1. Stage 1 :256x256 patches, 100,000 步。 2. Stage 2 :384x384 patches, 50,000 步。 增强 :随机旋转、翻转。 技巧:训练时使用额外的"Tail"分支生成辅助图像以稳定训练(推理时移除)。
损失函数 文档中未明确列出(文中仅提及 "L1 loss" 出现在表格对比中,但正文未详述具体训练Loss,通常此类轻量模型用 L1)。

4.8 ECAN: Efficient Channel Attention Network... (Team CUEE-MDAP)

表格

维度 详细内容
模型结构 CNN-based ,无外部预训练。 1. 结构 :浅层提取 -> 深层提取 (8个 EfficientResidualBlock ) -> 上采样 -> 重建。 2. Block设计 :倒残差结构(Inverted Residual)+ 深度可分离卷积 (Depthwise separable conv) + SE Block (Squeeze-and-Excitation) 用于通道注意力。 参数:仅 93K 参数。
训练策略 端到端训练参数 :Batch Size=64, Patch Size=128x128, 训练 600 个 epoch。 增强 :旋转、翻转。 降质 :高斯模糊 ( �≤4.0σ≤4.0 ) + 高斯噪声 (level ≤0.04≤0.04 )。 技术:使用 Automatic Mixed Precision (AMP)。
损失函数 L1 Loss (文中提及 "L1 Loss" 并配合梯度裁剪)。

RAW图像恢复-文章第五章

各团队方法简介

5.1 Efficient RAW Image Restoration (Team Samsung AI)

维度 详细内容
模型结构 基于 NAFNet 架构改进,设计了两个变体: 1. ERIRNet-S (General):简化版NAFNet,减少通道数和编解码块数量。 2. ERIRNet-T (Efficient):进一步减少Block数量,使用更小的FFN扩展比,将PixelUnshuffle替换为ConvTranspose以适应参数限制。 核心组件:NAFBlock(用于去噪和去模糊)。
训练策略 采用 三阶段训练策略: 1. 基础模型训练:独立训练两个变体。 2. 教师模型训练:训练基于 X-Restormer 的教师模型。 3. 知识蒸馏:利用教师模型指导 ERIRNet-S 和 ERIRNet-T 的训练。 参数设置:Batch Size=16, Patch Size=512x512, 使用 MultiStepLR 调度器。
损失函数 L1 Loss (用于监督训练)。

5.2 Modified SwinFIR-Tiny for Raw Image Restoration (Team Miers)

维度 详细内容
模型结构 基于 SwinFIR-Tiny 改进。 1. 核心架构:包含 4个 RSTB (Residual Swin Transformer Blocks),每个包含 5或6个 HAB (Hybrid Attention Blocks)。 2. 改进点:引入 CAB (Channel Attention Block) 和 ConvRep5(重参数化卷积)模块。 3. 特征融合:聚合不同RSTB模块的输出以增强特征表达。
训练策略 四阶段渐进式训练: 1. 基线训练 (250K iters)。 2. 添加特征融合、通道注意力和ConvRep5 (170K iters)。 3. 引入CAB模块(零卷积)并增加噪声强度 (140K iters)。 4. 微调(降低学习率,减小Batch Size至2,增大输入尺寸至360x360)。 增强:使用 Mixup 数据增强。
损失函数 Charbonnier Loss。

5.3 Multi-PromptIR: Multi-scale Prompt-base Raw Image Restoration (Team WIRTeam)

维度 详细内容
模型结构 Encoder-Decoder 架构(4层)。 1. 核心组件:结合了 CNN 和 Transformer Blocks。 2. Prompt机制:包含 PGM (Prompt Generation Module) 和 PIM (Prompt Interaction Module)。 3. 多尺度信息:在编码阶段引入了下采样图像(1/2, 1/4, 1/8 尺寸)作为额外信息流。
训练策略 端到端(End-to-End)训练。 参数:训练 700 个 epoch,Batch Size 未明确提及(通常在DataLoader中处理),Patch Size=256x256。 增强:随机水平/垂直翻转。 硬件:1 * NVIDIA A100 (80G)。
损失函数 文档中未明确列出具体Loss名称,仅提及使用 AdamW 优化器。

5.4 LMPR-Net: Lightweight Multi-Stage Progressive RAW Restoration (Team WIRTeam)

维度 详细内容
模型结构 基于 MPRNet 改进。 1. 架构:多阶段(Multi-stage)结构,分解为多个子任务。 2. 组件:ORB (Original Resolution Block) 结合卷积和通道注意力提取跨通道特征。 3. 轻量化设计:隐藏维度设为 8,引入 Depthwise Over-parameterized Convolution (DO-Conv)。 4. SAM (Supervised Attention Module):在每个阶段精炼特征。
训练策略 端到端(End-to-End)训练。 参数:训练 600 个 epoch,Patch Size=256x256。 增强:水平和垂直翻转。 硬件:NVIDIA RTX 4090。
损失函数 Charbonnier Loss(用于约束,避免图像过度平滑)。

5.5 ER-NAFNet Raw Restoration (Team ChickenRun)

维度 详细内容
模型结构 U-Net 形状的架构。 1. 核心组件:NAFNet Block(非注意力特征网络)。 2. 结构细节:使用 SimpleGate 和 Simple Channel Attention (SCA) 模块。 3. 配置:宽度为16,编码器块 [2, 2, 4, 8],解码器块 [2, 2, 2, 2],中间块数为6。 4. 输入:4通道 RGGB RAW 数据。
训练策略 数据增强:结合了简单的水平/垂直翻转、Channel Shifts(通道移动)和 Mixup 增强。 参数:Batch Size=12, Patch Size=512, 总迭代次数 300,000。 降质模型:使用复杂的模糊和噪声降质流水线(AISP),包含暗电流噪声建模。
损失函数 L2 Loss (MSE)。
相关推荐
GaoJamie2 小时前
AI训推一体化轻量平台技术选型决策书
人工智能
DeepSCRM2 小时前
分布式架构下的跨境多平台通讯优化:如何通过语义网关提升交互转化?
人工智能
夏日的盒盒2 小时前
多实例学习(Multiple Instance Learning)计算病理学综述
人工智能·深度学习
@陈小鱼2 小时前
基于 KAN 模型的世界发展指标下预期寿命预测研究
人工智能·python·mlp·ml·kan·预期寿命
观测云2 小时前
观测云 x AI Agent:运维智能化的范式跃迁实践
大数据·运维·人工智能
NINGMENGb2 小时前
被误读的“传播力”——Infoseek如何量化媒体投放的“质量”而非“数量”
运维·人工智能·媒体·ai监测·舆情监测·舆情监测系统
百胜软件@百胜软件2 小时前
胜券POS亮相2026 CHINASHOP:智能终端+AI中台,重塑智慧零售新体验
人工智能
PPIO派欧云2 小时前
PPIO王闻宇:为什么云端Agent需要专属沙箱?
人工智能·agent
六月的可乐2 小时前
快速搭建 AI 客服系统:用 AI-Agent-Node + AISuspendedBallChat 打造可落地的智能客服方案
人工智能·gpt·ai·ai编程