ResCLIP

ccLianLian2025-12-18 13:50

ResCLIP

动机

现有方法（如SCLIP、NACLIP）通过将最后一层的标准交叉相关自注意力 （C2SAC^2SAC2SA, Query-Key）替换为自相关自注意力 （SCSA, Query-Query或Key-Key）来解决空间不变性问题。然而，这些SCSA方法忽略了交叉相关注意力本身能捕获丰富的空间对应关系的特性 。

验证实验

作者发现中间层的C2SA注意力图也能关注局部特征(具有良好的空间协变性 )，还能关注相同类别的特征。

方法

残差C2SA

就是将中间层的交叉注意力图进行平均加权到最后一层的注意力图中。

对应的消融实验。

语义反馈提取

NACLIP的高斯注意力虽然提高了空间局部性，但是却有个致命缺点：各向同性。意味着其只考虑相对距离，没有考虑形状。例如距离相同的高斯核的输出结果一致，但是可能是毫不相干的特征 。

除此之外，好的注意力图不仅应该关注局部特征，还应该关注相同的类别特征。

首先作者使用RCS模块输出后的分割掩码 进一步细化最后一层的注意力图，将相同类别的注意力图直接置为1。

然后为了保持局部性，作者采用连通性的方法削弱类别相同，但是不同连通的patch分数。

最后重新得到注意力矩阵，再通过这一矩阵获得分割掩码。

好的，作为一名AI领域的研究生分析师，我将为您深入解析您提供的论文《ResCLIP: Residual Attention for Training-free Dense Vision-language Inference》的方法部分。

GEMINI总结

🔬 论文分析：ResCLIP

0. 摘要原文翻译

上一篇：什么是裸金属服务器

下一篇：爬虫逆向：瑞数5(华能电子)

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03openclaw配置教程（linux+局域网ollama）04UV安装并设置国内源 05Linux下V2Ray安装配置指南 06AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 07openclaw使用nginx反代部署过程与disconnected (1008): pairing required解决 08Claude Code Skills 实用使用手册 09在Trae中使用Pencil MCP 10Vue-skills的中文文档