深度学习进阶(十八)坐标注意力 CA

上一篇我们介绍了 ECA,它用一维卷积替代了 SE 中的 MLP bottleneck,用更少的参数实现了更好的通道注意力。

但实际上,这套框架里还有别的优化空间:

在前面的内容里,无论是 SECBAM 还是 ECA,它们的通道注意力子模块第一步都是 全局平均池化 (CBAM 额外加入了最大池化),将 \(H \times W \times C\) 的特征图压缩为 \(1 \times 1 \times C\)。

这个过程实际上等价于把所有空间信息做了一个全局平均。对于要得出一个整体性的通道权重来说,这看起来是合理的。

但还有高手,21 年的论文 Coordinate Attention for Efficient Mobile Network Design 提出了新的观点:

GAP 把空间位置信息全部丢弃了,而"特征在图像的哪个位置"本身就是重要信息。通道注意力完全可以同时编码通道关系和空间位置信息。

由此论文提出了 坐标注意力(Coordinate Attention,CA),下面就来详细展开。

1. GAP 的局限性

我们还是先展开 CA 的提出动机,已知对于第 \(c\) 个通道的特征图 \(\mathbf{X}_c \in \mathbb{R}^{H \times W}\),GAP 的操作是:

\z_c = \\frac{1}{H \\times W} \\sum_{i=1}\^{H} \\sum_{j=1}\^{W} \\mathbf{X}_c(i,j) \\

从效果上讲,GAP 能得到这个通道整体的响应强度。虽然带来了空间信息的损失,但因为这不是我们所关注的内容,因此仍然合理。

但 CA 对此提出了质疑,我们从两个问题出发阐述作者的思路。

1. 同一通道内,特征的大致位置重要吗?

答案是肯定的。

举个例子:同一个"耳朵轮廓"通道,它出现在图像的左上角还是右下角,对判定"这是猫还是狗"的决策路径可能完全不同。

但 GAP 后,这两种情况会得到完全相同的通道描述标量。

2. 通道之间,位置关系的交互重要吗?

同样重要。

比如"耳朵"通道和"眼睛"通道在空间位置上是高度相关的,它们应该出现在彼此附近。但这种跨通道的空间位置关联 在 GAP 之后完全丢失。

ECA 虽然用一维卷积引入了局部通道交互,但它交互的是 GAP 之后的标量,空间的原始结构也早已被破坏。

你可能会想:

我们这么用本来就是只想算通道注意力,空间注意力我有另外的模块去做,你干嘛揪着这点不放?

但 CA 的作者说:

用我的方法,一个模块就可以实现这两个模块的工作,而且大多数情况下性能更好。

这便是 CA 的出发点,如果说 ECA 是 SE 的改进,那么从作用效果上来看,你也可以把 CA 看作 CBAM 的一种改进。

下面就来展开其具体逻辑:

2. CA 的具体改进点

既然 GAP 的问题是"一次性全局压缩丢失了空间信息",那 CA 的解决思路也很直接:

不要一次性把整个空间压成一个标量。而是沿两个空间方向分别编码,保留位置信息。

具体来说,CA 使用了两路并行的池化操作:

  1. 沿水平方向(X 轴)池化 :对每一行做平均池化,得到 \(\mathbf{z}^h \in \mathbb{R}^{C \times H \times 1}\)。
  2. 沿垂直方向(Y 轴)池化 :对每一列做平均池化,得到 \(\mathbf{z}^w \in \mathbb{R}^{C \times 1 \times W}\)。

用公式表示,对于第 \(c\) 个通道就是:

\z_c\^h(h) = \\frac{1}{W} \\sum_{0 \\le i \< W} \\mathbf{X}_c(h, i) \\

\z_c\^w(w) = \\frac{1}{H} \\sum_{0 \\le j \< H} \\mathbf{X}_c(j, w) \\

于是,CA 生成了两组向量:一个沿高度方向,一个沿宽度方向。这两组向量保留了特征沿各自空间方向上的分布信息。

如果某个通道在图像的顶部响应强、底部响应弱,那么它的 \(\mathbf{z}^h\) 向量会呈现出"上大下小"的趋势。

其实到这里,你会发现这还是一个粒度问题

原本我们将一整个通道上的信息压缩为一个标量,现在我们将其压缩为两个方向上的向量,保留了空间维度上的信息,让模型可以学习到空间注意力。

3. CA 的完整结构

了解了核心思路后,我们来展开 CA 模块的完整结构。

3.1 信息交互

如图所示,得到两路编码 \(\mathbf{z}^h\) 和 \(\mathbf{z}^w\) 后,会先将二者沿空间维度拼接,送入一个共享的 \(1 \times 1\) 卷积进行变换,再对输出进行应用 BN:

\\\mathbf{f} = \\delta (\\text{BN}( \\text{Conv}_{1 \\times 1} (\[\\mathbf{z}\^h, \\mathbf{z}\^w))) \]

其中,\(\delta\) 是非线性激活函数,论文中使用的是 h-swish:

\\\operatorname{h\\text{-}swish}(x) = x \\cdot \\frac{\\operatorname{ReLU6}(x + 3)}{6} \\

\\\operatorname{ReLU6}(z) = \\min(\\max(z, 0), 6)) \\

但论文里也提到这里只是为了引入非线性,并不强制某个具体函数。

而输出的 \(\mathbf{f} \in \mathbb{R}^{C/r \times (H+W) \times 1}\),\(r\) 是降维比例,与 SE 中的含义一致。

这一步的目的很明显:让水平和垂直两个方向的信息交互融合

3.2 权重生成和注入

完成两个方向上的信息交互后,我们就要再把他们拆开:

将 \(\mathbf{f}\) 沿空间维度拆分为 \(\mathbf{f}^h \in \mathbb{R}^{C/r \times H \times 1}\) 和 \(\mathbf{f}^w \in \mathbb{R}^{C/r \times 1 \times W}\),然后各自通过一个 \(1 \times 1\) 卷积恢复到原始通道数 \(C\),再经过 Sigmoid 得到最终的注意力权重:

\\\mathbf{g}\^h = \\sigma\\big( \\text{Conv}_{1 \\times 1}\^h(\\mathbf{f}\^h) \\big) \\

\\\mathbf{g}\^w = \\sigma\\big( \\text{Conv}_{1 \\times 1}\^w(\\mathbf{f}\^w) \\big) \\

这里,权重 \(\mathbf{g}_c^h(i)\) 在同一行的所有列是共享的,而 \(\mathbf{g}_c^w(j)\) 在同一列的所有行是共享的。

最终,输入特征图 \(\mathbf{X}_c\) 上的每个位置 \((i, j)\) 会被同时沿两个方向的权重加权:

\\\mathbf{Y}_c(i,j) = \\mathbf{X}_c(i,j) \\times \\mathbf{g}\^h_c(i) \\times \\mathbf{g}\^w_c(j) \\

也就是说,位置 \((i,j)\) 的最终权重是由"第 \(i\) 行整体有多重要"和"第 \(j\) 列整体有多重要"共同决定的,这也就是"坐标注意力 "的含义。

这便是 CA 模块的完整逻辑,其最大的改进在于将最初的全局池化改为两个方向上的池化。

4. CA 的参数量

最后,我们再来看看 CA 所需要的参数量:

首先是对拼接后的特征 \(\left\\mathbf{z}\^h, \\mathbf{z}\^w\\right\) 进行的 \(1 \times 1\) 卷积降维,这一层的参数量为:

\C \\times \\frac{C}{r} = \\frac{C\^2}{r} \\

这一点与 SE 完全一致,本质就是一个通道压缩。

接下来,CA 会分成两路,各自通过一个 \(1 \times 1\) 卷积恢复通道数,具体为:

\\\frac{C}{r} \\rightarrow C \\

因此,每一路的参数量都是:

\\\frac{C}{r} \\times C = \\frac{C\^2}{r} \\

总计:

\2 \\times \\frac{C\^2}{r} = \\frac{2C\^2}{r} \\

最终,将两部分相加,CA 的总参数量为:

\\\frac{C\^2}{r} + \\frac{2C\^2}{r} = \\frac{3C\^2}{r} \\

可以发现:CA 比 SE 多了 \(\frac{C^2}{r}\),也就是多出约 50% 的通道注意力参数。

但相应地,这换来了空间建模的能力。

而 CBAM 的参数量为:

\\\frac{2C\^2}{r} + 98(7 \\times7卷积) \\

因此,二者的参数量还需要在具体数据中进行对比。

不过显而易见的是: CA 省掉了独立的空间注意力模块,避免了额外分支,这带来了结构上的工程优势。

最终,CA 在 MobileNetV2 和 MobileNeXt 等轻量级网络上替换 SE 后,在 ImageNet 分类和 COCO 目标检测上均取得了稳定提升,并且在多数任务上的指标也优于 CBAM,证明了保留空间位置信息对注意力机制的实用价值

相关推荐
数数科技的数据干货5 小时前
ThinkingAI 正式发布数据采集 Agent,实现对话式数据接入!
ai·agent·ai编程·thinkingai·agentic engine
亦暖筑序6 小时前
DeepSeek 大模型本地部署与调用实战指南
ai·ollama·deepseek
暴躁小师兄数据学院6 小时前
【AI大数据工程师特训笔记】第08讲:集合运算与超级函数
大数据·笔记·sql·ai·postgresql
大模型最新论文速读7 小时前
05-29 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
泛联新安7 小时前
Omni可信智能开发体系发布|赋能工业研发AI转型
ai·大模型·代码可信
周易宅7 小时前
深度解析 AI Agent 的工具调用机制:从技能激活到动态路由
人工智能·ai·agent
weixin_468466857 小时前
图像分类技术落地应用与实战指南
人工智能·深度学习·ai·分类·数据挖掘·图像分类·模型部署
空空潍7 小时前
解锁ClaudeCode浏览器访问,极速效率-Playwright Cli
ai·claude·playwright-cli