NTIRE 2026 Challenge on Remote Sensing Infrared Image Super-Resolution冠军方案解读
论文:The First Challenge on Remote Sensing Infrared Image Super-Resolution at NTIRE 2026: Benchmark Results and Method Overview
一. 简介
NTIRE 的全称为New Trends in Image Restoration and Enhancement Challenges,即"图像复原和复原挑战中的新趋势",是CVPR(IEEE Conference on Computer Vision and Pattern Recognition)举办的极具影响力的计算机视觉底层任务比赛,主要涉及的研究方向有:图像超分辨率、图像去噪、去模糊、去摩尔纹、重建和去雾等。

其中在2026年,CVPR开展的NTIRE相关挑战有:
- 夜间图像去雾(NightTime Image Dehazing);
- 图像阴影去除(Image Shadow Removal);
- 3D内容超分辨率重建(3D Content Super-Resolution);
- 光场图像超分(Light Field Image Super-Resolution);
- 低光图像增强(Low Light Image Enhancement);
- 图像去噪(Image Denoising);
- 4倍图像超分辨率重建(Image Super-Resolution (x4));
- 遥感红外图像超分辨率重建(Remote Sensing Infrared Image Super-Resolution);
- 高效超分辨率重建(Efficient Super-Resolution);
- 3D内容复原和重建(3D Restoration and Reconstruction);
- 高效真实世界去模糊(Efficient Real-World Deblurring )。
同时,以上的这些挑战也蕴含着当前的一些研究难点及挑战,需要研究学者们集思广益,提出针对提升任务性能的想法,为共同解决近年来的难题贡献出一份力量。
本篇文章着重于NTIRE 2026 遥感红外图像超分辨率重建(Remote Sensing Infrared Image Super-Resolution) 挑战赛冠军队伍方案的解读,总结报告中能够提升任务的tricks,以期给相关的科研任务一些启发。
二、红外遥感超分比赛情况
共有 115 名参与者注册参加比赛,13 个团队成绩有效。各个队伍的成绩及排名如下:

综合各个指标(PSNR/SSIM/LPIPS等)的判定标准下,几个有特色的队伍成绩如下:
| 排名 | 队伍 | 综合得分依据 | 方案关键词 |
|---|---|---|---|
| 1 | WHU-VIP | PSNR 第 1 + SSIM 第 1 | Quality-Aware、HAT、SatVideoIRSDT |
| 2 | XJRes | PSNR 第 2 + SSIM 第 2 | PFT、HAT、model ensemble、self-ensemble |
| 3 | FengFans | PSNR 第 4 + SSIM 第 2 | HAT、model ensemble、self-ensemble |
| 4 | I2WM&JNU | PSNR 第 3 + SSIM 第 5 | HAT、MambaIR、model ensemble、self-ensemble |
| 5 | davinci | PSNR 第 5 + SSIM 第 4 | HAT、Mona |
亮点:前5名之间的差距已经非常小,PSNR差距在0.15 dB以内,都有使用HAT模型 ,说明Transformer-based 超分模型依然是主力。这很好理解,红外图像虽然纹理弱,但它在更大尺度上往往存在比较稳定的热分布模式与区域结构关系。Transformer 擅长建模长距离依赖,因此特别适合处理这种"局部纹理不足、全局结构重要"的视觉任务。
题外话:笔者觉得部分队伍的名字非常熟悉,仔细一看,XJRes原来是NTIRE 2026 Challenge on Nighttime Image Dehazing赛道的亚军队伍 ; I2WM&JNU是NTIRE 2026 Challenge on Image Super-Resolution (x4) 赛道的亚军队伍,也是NTIRE 2026 Challenge on Image Denoising赛道的亚军队伍。以上队伍实力强劲,在多个赛道都是佼佼者,salute!
三、数据集介绍
本次比赛使用的是官方提供的 InfraredSR 数据集,一共1341个低分辨率(LR)/高分辨率(HR)图像对,LR图是由高质量红外图像进行 4倍双三次下采样得到的。从形式上看,这是一个典型的已知退化的非盲超分挑战。 InfraredSR数据集样例图片如下:

训练集共1019张图像:有625张320×256分辨率的图像;有281张120×120分辨率的图像;有99张64×64分辨率的图像;有9张256×256分辨率的图像;有5张160×128分辨率的图像。

验证集共100张图像:有66张320×256分辨率的图像;有20张120×120分辨率的图像;有12张64×64分辨率的图像;有1张256×256分辨率的图像;有1张160×128分辨率的图像。(验证集和训练集的分辨率分布近似)

测试集共222张图像:有188张320×256分辨率的图像;有22张120×120分辨率的图像;有12张64×64分辨率的图像。

所有队伍均根据综合图像质量评估(IQA)得分进行排名,该得分由选手提交的超分辨率图像与红外超分辨率成像测试数据集中的GT进行比较计算得出。官方IQA得分计算公式如下:
S c o r e = P S N R + 20 × S S I M Score = PSNR + 20 \times SSIM Score=PSNR+20×SSIM
四、冠军方案解读
冠军队伍来自于武汉大学的遥感信息工程学院,该队伍针对比赛数据的特点(HR图像本身存在显著的质量差异 ),提出了图像质量感知的HAT模型------QAHAT(Quality-Aware HAT) 。在红外遥感图像超分中,并非所有的HR图像都是高质量的,可能部分HR图像来自于真正的高分辨率卫星观测,另一部分HR图像来自于低分辨率源(本身带有传感器噪声、JPEG压缩伪影) 。在训练过程中,同等对待对待质量存在差异的数据可能会导致学习信号不一致。为此,该队伍提出了一个显式建模HR图像质量差异 的超分框架,并最终在 13 支参赛队伍中获得第 1 名。QAHAT的网络结构如下图所示,该框架引入了两个互补的模块:
- Global Quality Branch(全局质量分支) :通过轻量级质量估计模块(Quality Estimation Module, QEM)估计输入图像的整体退化特征 ,并通过源质量适配器(Source Quality Adapters, SQA)将图像质量向量 注入到HAT主干网络的不同阶段,实现通道级的特征调制;
- Local Quality Branch(局部质量分支) :设计局部质量感知模块(Local Quality-Aware Module, LQAM) ,利用下采样路径提取具有更大感受野的伪影感知特征,捕捉空间上变化的局部退化,并与主干网络特征融合。

1. Global Quality Branch(全局质量分支)
红外遥感图像中,HR监督信号存在显著的质量异质性:部分HR图像来自真正的高分辨率卫星观测,质量较高;而另一些可能来自较低分辨率源,或包含传感器噪声、JPEG压缩伪影等退化。如果对所有训练样本一视同仁,模型会学到不一致的映射关系,影响重建质量。
为了解决这一问题,作者设计了一个轻量级的质量估计模块 ,用于估计输入图像的整体退化程度 。质量估计模块由若干个带步长的卷积层、全局池化层和全连接层组成,输出一个紧凑的图像质量描述向量,概括输入图像的退化特征。
随后,该质量向量通过多个源质量适配器 注入到HAT主干网络的深层特征提取阶段。每个源质量适配器利用质量向量生成通道级的缩放和偏置参数 ,对中间特征图进行调制,使网络能够根据预测的退化水平动态调整特征响应。
这种设计的优势在于:
- 让模型感知到不同HR图像的质量差异,避免从低质量监督中学习到错误的细节;
- 通过通道级调制,实现"图像质量自适应"的特征处理。
2. Local Quality Branch(局部质量分支)
除了全局质量差异外,红外遥感图像还可能存在空间上变化的局部伪影(如部分区域有压缩痕迹、局部模糊等)。单一的质量描述向量无法捕捉这类空间异质性的退化。
为此,作者进一步引入了局部质量感知模块。LQAM通过一个下采样路径提取具有更大感受野的伪影感知特征,能够捕捉上下文相关的退化模式。提取到的局部伪影表征与主干网络特征进行融合,引导模型在受退化影响的区域进行针对性的重建。
与全局分支类似,融合后的特征通过残差连接集成到HAT主干网络中,确保训练稳定性。LQAM的设计使得模型能够:
- 在无退化或轻微退化的区域,更积极地恢复细节;
- 在退化严重的区域,更保守地重建,避免引入伪影。
3. 训练策略与损失函数
数据集 :除了官方提供的训练数据外,该团队还引入了公开的热红外遥感数据集SatVideoIRSDT 作为补充训练数据(Tips:笔者认为使用SatVideoIRSDT作为额外的训练数据,是该团队取得冠军的关键 )。SatVideoIRSDT原本是红外视频卫星空中动目标检测数据集 ,包含1401个真实场景、122265帧视频图像和454116个目标。由于SatVideoIRSDT是视频数据,因此该团队从每个视频序列中随机采样一帧,构建辅助热红外图像数据集,与官方训练数据共同组成最终训练集。
训练配置:
- 输入图块大小:256×256
- 优化器:Adam(β1=0.9,β2=0.99)
- 初始学习率:5e-5
- 学习率调度:MultiStepLR,在20k和40k迭代时衰减为原来的0.5倍
- 总迭代次数:200k
- 指数滑动平均(EMA):衰减因子0.999,用于稳定训练过程
- 主干网络初始化:使用HAT-L的预训练权重,新引入的模块随机初始化并联合优化
损失函数 :作者直接对齐比赛的评估指标,将PSNR和SSIM组合为训练目标:
L = − P S N R ( I s r , I g t ) − 20 × S S I M ( I s r , I g t ) L=−PSNR(I_{sr},I_{gt})−20\times SSIM(I_{sr},I_{gt}) L=−PSNR(Isr,Igt)−20×SSIM(Isr,Igt)
该损失函数的设计意图非常明确:
- PSNR越大越好,取负值作为损失项,鼓励模型提升像素级精度;
- SSIM乘以20,放大其对总分的影响(与比赛评分公式对齐);
- 训练目标与评测指标严格一致,是竞赛中非常有效的上分策略。
五、总结
针对红外遥感图像超分中HR监督信号存在显著质量异质性的问题,提出了一种图像质量感知 的超分框架------QAHAT(Quality-Aware HAT)。该框架通过引入全局质量分支 (Global Quality Branch)和局部质量分支 (Local Quality Branch),让模型能够感知输入图像的整体退化特征与空间上的局部伪影,从而根据不同的质量水平自适应地调整特征处理方式,避免了从低质量监督中学习到不一致的映射关系。在训练策略上,该队伍引入了公开的热红外遥感数据集SatVideoIRSDT作为补充训练数据,并设计了与比赛评测指标严格对齐的损失函数。实验结果表明,QAHAT在PSNR和SSIM两个关键指标上均排名第一,在13支参赛队伍中夺得冠军。这项工作的核心启示在于:在真实场景的超分任务中,关注数据本身的质量差异,往往比单纯设计更复杂的网络结构更为重要 。
最后感谢小伙伴们的学习噢~
