【X-Restormer++】全天候图像恢复赛冠军方案：三项创新解析及对VIO/SLAM前端的工程价值

Restormer：高分辨率图像修复的高效Transformer (CVPR 2022 - 口头报告)

摘要

X-Restormer++ 是 CVPR 2026 UG2+ 全天候图像恢复赛（Track 1）的第一名方案，建立在 Restormer 转置注意力架构之上，新增了三项工程改进：空间自适应输入缩放 （不同区域差异化增强）、梯度引导边缘感知损失 （保留几何结构而非只追求视觉清洁）、以及 24,500 对额外的 FoundIR+WeatherBench 数据。它的目标场景覆盖暴雨、大雪、浓雾、沙尘/雾霾等全谱系低能见度天气。对 SLAM/VIO 工程师而言，这类模型的正确定位不是"替代 SLAM 主干"，而是可选前处理模块------何时开、何时关、开了是否真能提升 tracking stability，必须以 ATE/RPE 而非 PSNR 为指标实验验证。

一、X-Restormer++ 的三项核心创新

1.1 空间自适应输入缩放（Spatially-Adaptive Input Scaling）

传统图像恢复模型对全图使用统一的增强强度，这对多区域退化不均匀的天气图像是次优的：图像角落可能积雪严重而中心区域仍可见。X-Restormer++ 在输入阶段引入逐区域（patch-wise）自适应缩放系数 λ ( x , y ) \lambda(x, y) λ(x,y)，使不同空间位置获得与局部退化程度匹配的恢复力度：

I ^ scale ( x , y ) = λ ( x , y ) ⋅ I in ( x , y ) \hat{I}{\text{scale}}(x, y) = \lambda(x, y) \cdot I{\text{in}}(x, y) I^scale(x,y)=λ(x,y)⋅Iin(x,y)

其中 λ ( x , y ) ∈ [ λ min ⁡ , λ max ⁡ ] \lambda(x, y) \in [\lambda_{\min}, \lambda_{\max}] λ(x,y)∈[λmin,λmax] 由轻量子网络根据局部梯度/频率特征预测。这避免了统一增强导致的欠恢复（低退化区域）和过平滑（严重退化区域）问题。

1.2 梯度引导边缘感知损失（Gradient-Guided Edge-Aware Loss）

标准 ℓ 1 / ℓ 2 \ell_1/\ell_2 ℓ1/ℓ2 损失只关注像素强度误差，容易让模型优化出视觉平滑但边缘模糊的输出。对 SLAM 的特征提取而言，边缘和角点质量远比整体亮度精度重要。X-Restormer++ 在损失函数中加入梯度项：

L total = L rec + α ⋅ L edge \mathcal{L}{\text{total}} = \mathcal{L}{\text{rec}} + \alpha \cdot \mathcal{L}_{\text{edge}} Ltotal=Lrec+α⋅Ledge

L edge = ∥ ∇ I ^ − ∇ I gt ∥ 1 \mathcal{L}{\text{edge}} = \left\| \nabla \hat{I} - \nabla I{\text{gt}} \right\|_1 Ledge= ∇I^−∇Igt 1

其中 ∇ \nabla ∇ 为 Sobel/Laplacian 算子， I ^ \hat{I} I^ 为模型输出， I gt I_{\text{gt}} Igt 为清晰参考图。该损失显式惩罚边缘偏移，使恢复后图像的轮廓与干净参考对齐------这对后续 ORB 特征点、LK 光流、SIFT 匹配的稳定性是关键。

1.3 额外 24,500 对退化-清晰训练数据

数据集	来源	数据量	退化类型
FoundIR	百万级合成退化	~20K 对	雨/雾/噪声/模糊综合
WeatherBench	真实天气采集系统（AWAS）	~4.5K 对	真实雨/雪/霾对齐图像对

WeatherBench 数据用专用的 All-in-One Weather Acquisition System（含雾/雨/雪发生器）采集，提供精确对齐的退化-清晰图像对，是当前少有的真实天气退化基准（对比大多数方案依赖合成数据）。

二、Restormer 基础架构回顾

X-Restormer++ 继承了 Restormer（CVPR 2022 Oral）的主干架构，理解基础有助于判断改动的价值。

2.1 多头转置注意力（MDTA）

Restormer 的核心创新：将 Attention 计算从空间维 转到通道维 ，将复杂度从 O ( H 2 W 2 ) O(H^2W^2) O(H2W2) 降至 O ( H W ) O(HW) O(HW)：

X ^ = W p ⋅ Attention ( Q ^ , K ^ , V ^ ) + X \hat{\mathbf{X}} = \mathbf{W}_p \cdot \text{Attention}(\hat{\mathbf{Q}}, \hat{\mathbf{K}}, \hat{\mathbf{V}}) + \mathbf{X} X^=Wp⋅Attention(Q^,K^,V^)+X

Attention ( Q ^ , K ^ , V ^ ) = V ^ ⋅ Softmax ⁣ ( K ^ ⋅ Q ^ α ) \text{Attention}(\hat{\mathbf{Q}}, \hat{\mathbf{K}}, \hat{\mathbf{V}}) = \hat{\mathbf{V}} \cdot \text{Softmax}\!\left(\frac{\hat{\mathbf{K}} \cdot \hat{\mathbf{Q}}}{\alpha}\right) Attention(Q^,K^,V^)=V^⋅Softmax(αK^⋅Q^)

其中 Q ^ , K ^ , V ^ \hat{\mathbf{Q}}, \hat{\mathbf{K}}, \hat{\mathbf{V}} Q^,K^,V^ 由 1×1 卷积（跨通道聚合）+ 3×3 深度可分离卷积（局部上下文）生成。注意力矩阵维度为 C × C C \times C C×C（通道数）而非 H W × H W HW \times HW HW×HW（像素数），对高分辨率图像的推理效率显著提升。

2.2 门控深度可分离前馈网络（GDFN）

X ^ = W p 0 ⋅ Gating ( X ) + X \hat{\mathbf{X}} = \mathbf{W}_p^0 \cdot \text{Gating}(\mathbf{X}) + \mathbf{X} X^=Wp0⋅Gating(X)+X

Gating ( X ) = ϕ ⁣ ( W d 1 W p 1 LN ( X ) ) ⊙ W d 2 W p 2 LN ( X ) \text{Gating}(\mathbf{X}) = \phi\!\left(\mathbf{W}_d^1 \mathbf{W}_p^1 \text{LN}(\mathbf{X})\right) \odot \mathbf{W}_d^2 \mathbf{W}_p^2 \text{LN}(\mathbf{X}) Gating(X)=ϕ(Wd1Wp1LN(X))⊙Wd2Wp2LN(X)

⊙ \odot ⊙ 为逐元素乘积， ϕ \phi ϕ 为 GELU 激活。门控机制让网络学会抑制噪声特征、只传播有效信息，相比标准 FFN 在去噪任务中更稳健。

2.3 整体结构

Transformer Block
MDTA

通道注意力 O-HW
GDFN

门控深度可分离FFN
退化图像输入
浅层特征提取

3×3 Conv
4级编码器

Transformer Block: 4-6-6-8
瓶颈层

8 Transformer Blocks
4级解码器

对称结构 + Skip Connection
残差输出

+输入图像
恢复图像

三、对 VIO/SLAM 系统的价值评估

3.1 正确定位：前处理模块，不是 SLAM 主干

X-Restormer++ 在 VIO/SLAM 系统中的作用位置：
退化严重
质量正常
原始相机图像

雨/雪/雾/沙尘
图像质量评估

IQA
X-Restormer++

全天候恢复
直接输入
特征提取

ORB / SuperPoint
光流/深度

RAFT / Depth Pro
VIO/SLAM 后端

OpenVINS / ORB-SLAM3
位姿 / 地图

自适应开关（图像质量正常时跳过恢复模块）是工程实用性的关键，可以避免在好天气下引入不必要的延迟和 hallucination 风险。

3.2 潜在收益

场景	机制	预期收益
暴雨/大雪	去除雨线/雪点噪声	提升可跟踪特征点数量
浓雾/雾霾	对比度增强、去雾	改善光流估计的纹理可见性
低光照	动态范围扩展	减少暗区角点丢失
沙尘	频率滤波	降低随机噪声对匹配的干扰

3.3 工程风险（不可忽视）

风险	具体表现	影响
细节幻觉（Hallucination）	恢复出的细节不对应真实物理结构	破坏特征匹配一致性
几何一致性破坏	像素值分布被改变，极线约束不再精确成立	误匹配率上升
推理延迟	高分辨率图像推理 20-100ms	实时 VIO 帧率下降
嵌入式部署压力	Transformer 架构量化损失较大	边缘设备部署困难

⚠️ 核心结论：恢复后的图像不一定更适合 SLAM。视觉上干净的图像，对下游任务的实际帮助必须用 ATE/RPE/tracking loss 实验验证，不能用 PSNR、SSIM 或视觉效果代替。

四、推荐实验框架

验证图像恢复前处理是否真正提升 SLAM tracking 的最小实验设计：

版本	输入处理	SLAM 前端	评估指标
Baseline	原始雨/雾/低光图像	ORB-SLAM3 / OpenVINS	tracking loss 率、ATE、FPS
Enhancement v1	CLAHE / Gamma / Retinex（轻量经典算法）	同上	与 Baseline 对比
Enhancement v2	X-Restormer / Restormer 类模型（全量）	同上	精度提升 vs 延迟代价
Enhancement v3	轻量蒸馏版（INT8/FP16 量化）	同上	嵌入式可行性验证
Hybrid	IQA 驱动自适应开关（退化分数 > 阈值才开启）	同上	综合稳定性

关键评估维度：

Tracking Loss 率：连续 N 帧内特征丢失导致重定位的次数
ATE RMSE（Absolute Trajectory Error）：端到端轨迹精度
端到端 FPS：含图像恢复的总推理延迟

五、产品定位建议

对长续航可穿戴 AR/VR 或户外机器人产品，不建议以"AI 解决了所有恶劣天气 SLAM"作为卖点。更落地的技术路线：
低光
雨/雾/雪
清晰
Camera Input
Image Quality Assessment

轻量 IQA 模块
退化类型判断
Retinex/CLAHE

低延迟轻量方案
X-Restormer++ 子模型

按退化类型专用化
直接通过
Feature / Optical Flow / Depth
VIO Backend

grslam / OpenVINS
Pose / Map / Spatial Understanding

这比单纯说"AI SLAM"更落地，也是当前工业界（大疆、百度、Waymo）普遍采用的分层鲁棒化策略。

小结

三点个人判断：

边缘感知损失是最有价值的改动：它将图像恢复的优化目标从"看起来干净"转向"特征可提取"，与 SLAM 前端的实际需求对齐。若用 LoFTR/SuperPoint 替代 ORB，这个损失对匹配精度的影响值得专项实验。
WeatherBench 真实数据是竞赛取胜关键：大多数恢复模型在合成雨/雾上效果好、真实场景泛化差。真实采集的配对数据对部署到户外设备具有更直接的迁移价值。
不要跳过 v1（CLAHE/Retinex）：在嵌入式场景下，计算量小两个数量级的经典算法在中等退化条件下可能已经足够，神经网络前处理的边际价值要在实验中证明。

论文/资源链接：

X-Restormer++ 技术报告：CVPR 2026 UG2+ 竞赛（Track 1 第一名，待公开）
Restormer 基础架构：arXiv 2111.09881 | GitHub
WeatherBench 数据集：arXiv 2509.11642
UG2+ Challenge 2026：官方主页