ICLR2026 | Ada-RefSR: 自适应隐式相关建模,开启“信而有证”的参考超分新范式

作者: vivo BlueImage Lab
摘要:

我们针对于单步SD的超分模型容易出现幻觉问题,提出了信而有证参考超分新范式,基于单步扩散模型构建,首先通过注意力机制引入参考信息,随后通过隐式相关性建模进行过滤与验证,对应的论文已被 ICLR2026 接收!

该工作由vivo BlueImage Lab,南开大学共同完成。

项目主页:

github.com/vivoCameraR...

一、研究背景:解决扩散模型的"幻觉"困境

基于扩散模型的单图超分(SISR)虽然能生成惊艳的细节1, 2,但其本质是一个病态(ill-posed)问题。在缺乏外部约束时,模型容易产生幻觉(Hallucinations) ------即伪造不真实的纹理。参考超分(RefSR) 试图通过引入参考图(Ref)3, 4来纠正这一点。但在真实场景中,低质图(LQ)的退化通常是未知的且严重的,导致 LQ 与 Ref 的匹配极度困难。

  • 现有痛点: 显式的逐 Token 匹配(如 ReFIR 5)在强退化下极度脆弱,极易导致错误的纹理迁移(如双重伪影)。
  • 核心挑战: 究竟该如何自适应地利用参考图像?在匹配度高时增强参考,在匹配度低时果断"断舍离"。

我们提出了 Ada-RefSR方法,以解决上述的问题。以下是 Ada-RefSR 与当前主流方法的对比效果:

  • **超越单图极限(vs. S3Diff 6):**相比于基线方法 S3Diff,Ada-RefSR 能够突破单图信息的瓶颈,精准地从参考图中提取并注入高频纹理,显著提升了画面的精细度。
  • 重塑参考范式(vs. ReFIR):
    **- 不过度利用:**有效抑制了 ReFIR 常见的误匹配伪影,避免了生搬硬套参考图导致的视觉不协调。
    - 更充分激活:在 ReFIR 表现保守、利用率不足的区域,我们的方法能够实现"恰到好处"的细节补充,真正做到了对参考信息的深度挖掘与自适应融合

二、技术逻辑:一步式生成的背后

我们提出了 "Trust but Verify"(信而有证) 范式。首先通过注意力机制引入参考信息(Trust),随后通过隐式相关性建模进行过滤与验证(Verify)。

2.1 结构概览

以下是我们的方法结构图:

Ada-RefSR 基于单步扩散模型(Single-step Diffusion)构建,核心由两个关键路径组成:

  • ReferenceNet 路径: 冻结权重以保留 SD-Turbo 的高质量特征提取能力,通过 Reference Attention (RA) 实现 LQ 与 Ref 的多尺度特征对齐。
  • AICG 分支(核心): 充当自适应的"流量调节器"。

2.2 核心突破:自适应隐式相关门控 (AICG)

为了实现"Trust but Verify"的范式,我们设计了 AICG 模块。其核心逻辑是通过隐式建模,计算 LQ 输入与参考图之间的"信任分",从而动态调节细节注入的强度。

第一步:提炼参考特征 (Feature Summarization)

不同于直接使用海量的参考特征 Token(计算量大且含噪声),我们引入了一组可学习的总结 Token ( T S ) 。通过交叉注意力机制,将参考图中的关键纹理和高频信息压缩到极少量的 M 个核心 Token 中:

  • 核心逻辑:K _sum_​=Attention(T_S_​,K_ref_​)

  • 意义:这一步像是一个"过滤器",只保留参考图中最重要的结构和纹理模式。

第二步:计算隐式相关度 (Implicit Correlation)

我们将 LQ 图像的查询特征(Query)与压缩后的参考特征进行匹配,生成一张相关性图 (Correlation Map)

  • 核心逻辑:S _map_​=Softmax(Q_lq_​⋅Ksum⊤​)

  • **意义:**该图反映了 LQ 的每个区域在参考图中找到"可靠对应物"的概率。

第三步:动态门控调节 (Adaptive Gating)

这是实现鲁棒性的关键。我们将相关性图在 Token 维度上取平均,并通过 Sigmoid 函数映射为 0 到 1 之间的自适应权重 G

  • 计算简化版:G =σ (Mean(S_map_​))

  • 最终融合:H _out_​=ZeroLinear(G⊙Reference Detail)+LQ Context

技术优势:

  • **防伪影保护:**当 G 趋近于 0 时,说明参考图在该区域不可靠,模型会自动切换回单图超分模式,有效避免误匹配导致的幻觉伪影。
  • 极轻量化:由于 M(总结 Token 数量)远小于原始特征长度,AICG 引入的额外计算量几乎可以忽略不计。
  • **端到端自学习:**门控权重的学习无需人工标注,完全由模型在训练过程中根据重建质量自动优化。

三、性能表现:全面领先 SOTA

我们在四个主流 Benchmark 上验证了 Ada-RefSR 的实力,具体结果如下图:

ruby 复制代码
| 数据集                  | 指标          | 性能表现                               |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最佳,视觉自然度显著优于 ReFIR               |
| 人脸场景 (Face)         | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird)         | 结构稳定性   | 在保持语义一致性方面优势明显                     |

关键结论:

  • 全面领跑: 在反映感知质量的 FID 和 LPIPS 上表现优异,证明生成的图像既清晰又自然。
  • 拒绝幻觉: AICG 机制有效减少了因误匹配导致的伪影,其鲁棒性远超现有的显式匹配方案。

四、落地优势:专为移动影像设计

Ada-RefSR 的设计初衷不仅是学术性能,更考虑了端侧设备(手机) 的部署需求:

  • 极速推理: 采用单步生成(Single-step) 架构,相比传统多步迭代的扩散模型,推理速度提升了数十倍,真正具备在手机端侧实时处理的可能性。
  • 计算高效: AICG 模块设计精巧,仅引入极少量的可学习参数,且能通过 bf16 量化等手段进一步压缩,对显存极其友好。
  • 极致鲁棒: 手机拍摄场景复杂(如变焦参考、不同光照参考),AICG 的门控机制能有效防止在参考图不相关时"带偏"画质,保证了修复结果的下限。

五、总结

Ada-RefSR 通过 "Trust but Verify" 这一简洁而深刻的原则,利用隐式相关性建模解决了 RefSR 在真实世界退化下的顽疾。它不仅在学术研究上提供了一个全新的自适应视角,也为高性能、低功耗的影像修复落地指明了方向。

引用:

1 Wang, Jianyi, et al. "Exploiting Diffusion Prior for Real-World Image Super-Resolution." IJCV, 2024.

2 Wu, Rongyuan, et al. "Seesr: Towards semantics-aware real-world image super-resolution." CVPR, 2024.

3 Jiang, Yuming, et al. "Robust Reference-based Super-Resolution via C2-Matching." CVPR, 2021.

4 Cao, Jiezhang, et al. "Reference-based Image Super-Resolution with Deformable Attention Transformer." ECCV, 2022.

5 Guo, Hang, et al. "ReFIR: Grounding Large Restoration Models with Retrieval Augmentation." arXiv:2410.05601, 2024.

6 Zhang, Aiping, et al. "Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors." arXiv:2411.01166 (S3Diff), 2024.

vivo BlueImage Lab

蓝图影像创新实验室,主要负责移动影像算法创新,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。

致力于不断提升vivo移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。

欢迎持续关注 vivo 影像技术,获取前沿技术创新经验分享与热招岗位信息。

相关推荐
Ricky_yyy3 分钟前
GLM架构深度解读:清华大模型的核心技术
人工智能·深度学习·glm
MemoriKu3 分钟前
Flutter 相册 APP 视频模态稳定化实战:从远端重构冲突到真机 Smoke Test
人工智能·python·flutter·机器学习·重构·音视频·新人首发
谷歌玩家5 分钟前
人工智能、机器学习、生成式AI、神经网络、Transformer 概念梳理
人工智能
一切皆是因缘际会5 分钟前
因果推理人工智能
大数据·数据结构·人工智能
AI原来如此8 分钟前
Claude Opus与GPT-5激战,国内API中转站如何应对2026模型迭代潮?
大数据·人工智能·gpt·ai·大模型·ai编程
好评笔记8 分钟前
深度学习面试八股—— GRU(Gated Recurrent Unit)
人工智能·rnn·深度学习·算法·机器学习·gru·校招
comcoo9 分钟前
避坑指南:OpenClaw v2.7.9 Windows/macOS 零基础安装全过程
人工智能·windows·macos·github·开源软件·open claw·open claw部署包
南檐巷上学9 分钟前
基于改进型CNN神经网络的车牌定位识别系统(Matlab)
人工智能·神经网络·matlab·cnn·车牌识别·vgg
3DVisionary10 分钟前
模具电极3D检测真实案例:手机后盖注塑模石墨电极全流程实录
人工智能·3d·智能手机·案例分析·蓝光三维扫描·模具检测·石墨电极
AI人工智能+11 分钟前
往来港澳通行证识别系统,深度融合计算机视觉与自然语言处理,为“智慧口岸”和“数字政务”提供了强有力的技术支撑
人工智能·深度学习·ocr·往来港澳通行证识别