ICLR2026 | Ada-RefSR: 自适应隐式相关建模，开启“信而有证”的参考超分新范式

作者： vivo BlueImage Lab
摘要：

我们针对于单步SD的超分模型容易出现幻觉问题，提出了信而有证参考超分新范式，基于单步扩散模型构建，首先通过注意力机制引入参考信息，随后通过隐式相关性建模进行过滤与验证，对应的论文已被 ICLR2026 接收！

该工作由vivo BlueImage Lab，南开大学共同完成。

项目主页：

github.com/vivoCameraR...

一、研究背景：解决扩散模型的"幻觉"困境

基于扩散模型的单图超分（SISR）虽然能生成惊艳的细节 $1, 2$ ，但其本质是一个病态（ill-posed）问题。在缺乏外部约束时，模型容易产生幻觉（Hallucinations） ------即伪造不真实的纹理。参考超分（RefSR） 试图通过引入参考图（Ref） $3, 4$ 来纠正这一点。但在真实场景中，低质图（LQ）的退化通常是未知的且严重的，导致 LQ 与 Ref 的匹配极度困难。

现有痛点： 显式的逐 Token 匹配（如 ReFIR $5$ ）在强退化下极度脆弱，极易导致错误的纹理迁移（如双重伪影）。
核心挑战： 究竟该如何自适应地利用参考图像？在匹配度高时增强参考，在匹配度低时果断"断舍离"。

我们提出了 Ada-RefSR方法，以解决上述的问题。以下是 Ada-RefSR 与当前主流方法的对比效果：

**超越单图极限（vs. S3Diff $6$ ）：**相比于基线方法 S3Diff，Ada-RefSR 能够突破单图信息的瓶颈，精准地从参考图中提取并注入高频纹理，显著提升了画面的精细度。
重塑参考范式（vs. ReFIR）：
**- 不过度利用：**有效抑制了 ReFIR 常见的误匹配伪影，避免了生搬硬套参考图导致的视觉不协调。
- 更充分激活：在 ReFIR 表现保守、利用率不足的区域，我们的方法能够实现"恰到好处"的细节补充，真正做到了对参考信息的深度挖掘与自适应融合。

二、技术逻辑：一步式生成的背后

我们提出了 "Trust but Verify"（信而有证） 范式。首先通过注意力机制引入参考信息（Trust），随后通过隐式相关性建模进行过滤与验证（Verify）。

2.1 结构概览

以下是我们的方法结构图：

Ada-RefSR 基于单步扩散模型（Single-step Diffusion）构建，核心由两个关键路径组成：

ReferenceNet 路径： 冻结权重以保留 SD-Turbo 的高质量特征提取能力，通过 Reference Attention (RA) 实现 LQ 与 Ref 的多尺度特征对齐。
AICG 分支（核心）： 充当自适应的"流量调节器"。

2.2 核心突破：自适应隐式相关门控 (AICG)

为了实现"Trust but Verify"的范式，我们设计了 AICG 模块。其核心逻辑是通过隐式建模，计算 LQ 输入与参考图之间的"信任分"，从而动态调节细节注入的强度。

第一步：提炼参考特征 (Feature Summarization)

不同于直接使用海量的参考特征 Token（计算量大且含噪声），我们引入了一组可学习的总结 Token ( T S ) 。通过交叉注意力机制，将参考图中的关键纹理和高频信息压缩到极少量的 M 个核心 Token 中：

核心逻辑：K _sum_=Attention(T_S_,K_ref_)
意义：这一步像是一个"过滤器"，只保留参考图中最重要的结构和纹理模式。

第二步：计算隐式相关度 (Implicit Correlation)

我们将 LQ 图像的查询特征（Query）与压缩后的参考特征进行匹配，生成一张相关性图 (Correlation Map)：

核心逻辑：S _map_=Softmax(Q_lq_⋅Ksum⊤)
**意义：**该图反映了 LQ 的每个区域在参考图中找到"可靠对应物"的概率。

第三步：动态门控调节 (Adaptive Gating)

这是实现鲁棒性的关键。我们将相关性图在 Token 维度上取平均，并通过 Sigmoid 函数映射为 0 到 1 之间的自适应权重 G。

计算简化版：G =σ (Mean(S_map_))
最终融合：H _out_=ZeroLinear(G⊙Reference Detail)+LQ Context

技术优势：

**防伪影保护：**当 G 趋近于 0 时，说明参考图在该区域不可靠，模型会自动切换回单图超分模式，有效避免误匹配导致的幻觉伪影。
极轻量化：由于 M（总结 Token 数量）远小于原始特征长度，AICG 引入的额外计算量几乎可以忽略不计。
**端到端自学习：**门控权重的学习无需人工标注，完全由模型在训练过程中根据重建质量自动优化。

三、性能表现：全面领先 SOTA

我们在四个主流 Benchmark 上验证了 Ada-RefSR 的实力，具体结果如下图：

ruby 复制代码

| 数据集                  | 指标          | 性能表现                               |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最佳，视觉自然度显著优于 ReFIR               |
| 人脸场景 (Face)         | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird)         | 结构稳定性   | 在保持语义一致性方面优势明显                     |

关键结论：

全面领跑： 在反映感知质量的 FID 和 LPIPS 上表现优异，证明生成的图像既清晰又自然。
拒绝幻觉： AICG 机制有效减少了因误匹配导致的伪影，其鲁棒性远超现有的显式匹配方案。

四、落地优势：专为移动影像设计

Ada-RefSR 的设计初衷不仅是学术性能，更考虑了端侧设备（手机） 的部署需求：

极速推理： 采用单步生成（Single-step） 架构，相比传统多步迭代的扩散模型，推理速度提升了数十倍，真正具备在手机端侧实时处理的可能性。
计算高效： AICG 模块设计精巧，仅引入极少量的可学习参数，且能通过 bf16 量化等手段进一步压缩，对显存极其友好。
极致鲁棒： 手机拍摄场景复杂（如变焦参考、不同光照参考），AICG 的门控机制能有效防止在参考图不相关时"带偏"画质，保证了修复结果的下限。

五、总结

Ada-RefSR 通过 "Trust but Verify" 这一简洁而深刻的原则，利用隐式相关性建模解决了 RefSR 在真实世界退化下的顽疾。它不仅在学术研究上提供了一个全新的自适应视角，也为高性能、低功耗的影像修复落地指明了方向。

引用：

$1$ Wang, Jianyi, et al. "Exploiting Diffusion Prior for Real-World Image Super-Resolution." IJCV, 2024.

$2$ Wu, Rongyuan, et al. "Seesr: Towards semantics-aware real-world image super-resolution." CVPR, 2024.

$3$ Jiang, Yuming, et al. "Robust Reference-based Super-Resolution via C2-Matching." CVPR, 2021.

$4$ Cao, Jiezhang, et al. "Reference-based Image Super-Resolution with Deformable Attention Transformer." ECCV, 2022.

$5$ Guo, Hang, et al. "ReFIR: Grounding Large Restoration Models with Retrieval Augmentation." arXiv:2410.05601, 2024.

$6$ Zhang, Aiping, et al. "Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors." arXiv:2411.01166 (S3Diff), 2024.

vivo BlueImage Lab

蓝图影像创新实验室，主要负责移动影像算法创新，包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。

致力于不断提升vivo移动影像的算法能力，使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用，努力为用户提供更加丰富和便捷的影像体验。

欢迎持续关注 vivo 影像技术，获取前沿技术创新经验分享与热招岗位信息。