深度学习进阶(十八)坐标注意力 CA

上一篇我们介绍了 ECA,它用一维卷积替代了 SE 中的 MLP bottleneck,用更少的参数实现了更好的通道注意力。

但实际上,这套框架里还有别的优化空间:

在前面的内容里,无论是 SECBAM 还是 ECA,它们的通道注意力子模块第一步都是 全局平均池化 (CBAM 额外加入了最大池化),将 \(H \times W \times C\) 的特征图压缩为 \(1 \times 1 \times C\)。

这个过程实际上等价于把所有空间信息做了一个全局平均。对于要得出一个整体性的通道权重来说,这看起来是合理的。

但还有高手,21 年的论文 Coordinate Attention for Efficient Mobile Network Design 提出了新的观点:

GAP 把空间位置信息全部丢弃了,而"特征在图像的哪个位置"本身就是重要信息。通道注意力完全可以同时编码通道关系和空间位置信息。

由此论文提出了 坐标注意力(Coordinate Attention,CA),下面就来详细展开。

1. GAP 的局限性

我们还是先展开 CA 的提出动机,已知对于第 \(c\) 个通道的特征图 \(\mathbf{X}_c \in \mathbb{R}^{H \times W}\),GAP 的操作是:

\[z_c = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} \mathbf{X}_c(i,j) \]

从效果上讲,GAP 能得到这个通道整体的响应强度。虽然带来了空间信息的损失,但因为这不是我们所关注的内容,因此仍然合理。

但 CA 对此提出了质疑,我们从两个问题出发阐述作者的思路。

1. 同一通道内,特征的大致位置重要吗?

答案是肯定的。

举个例子:同一个"耳朵轮廓"通道,它出现在图像的左上角还是右下角,对判定"这是猫还是狗"的决策路径可能完全不同。

但 GAP 后,这两种情况会得到完全相同的通道描述标量。

2. 通道之间,位置关系的交互重要吗?

同样重要。

比如"耳朵"通道和"眼睛"通道在空间位置上是高度相关的,它们应该出现在彼此附近。但这种跨通道的空间位置关联 在 GAP 之后完全丢失。

ECA 虽然用一维卷积引入了局部通道交互,但它交互的是 GAP 之后的标量,空间的原始结构也早已被破坏。

你可能会想:

我们这么用本来就是只想算通道注意力,空间注意力我有另外的模块去做,你干嘛揪着这点不放?

但 CA 的作者说:

用我的方法,一个模块就可以实现这两个模块的工作,而且大多数情况下性能更好。

这便是 CA 的出发点,如果说 ECA 是 SE 的改进,那么从作用效果上来看,你也可以把 CA 看作 CBAM 的一种改进。

下面就来展开其具体逻辑:

2. CA 的具体改进点

既然 GAP 的问题是"一次性全局压缩丢失了空间信息",那 CA 的解决思路也很直接:

不要一次性把整个空间压成一个标量。而是沿两个空间方向分别编码,保留位置信息。

具体来说,CA 使用了两路并行的池化操作:

  1. 沿水平方向(X 轴)池化 :对每一行做平均池化,得到 \(\mathbf{z}^h \in \mathbb{R}^{C \times H \times 1}\)。
  2. 沿垂直方向(Y 轴)池化 :对每一列做平均池化,得到 \(\mathbf{z}^w \in \mathbb{R}^{C \times 1 \times W}\)。

用公式表示,对于第 \(c\) 个通道就是:

\[z_c^h(h) = \frac{1}{W} \sum_{0 \le i < W} \mathbf{X}_c(h, i) \]

\[z_c^w(w) = \frac{1}{H} \sum_{0 \le j < H} \mathbf{X}_c(j, w) \]

于是,CA 生成了两组向量:一个沿高度方向,一个沿宽度方向。这两组向量保留了特征沿各自空间方向上的分布信息。

如果某个通道在图像的顶部响应强、底部响应弱,那么它的 \(\mathbf{z}^h\) 向量会呈现出"上大下小"的趋势。

其实到这里,你会发现这还是一个粒度问题

原本我们将一整个通道上的信息压缩为一个标量,现在我们将其压缩为两个方向上的向量,保留了空间维度上的信息,让模型可以学习到空间注意力。

3. CA 的完整结构

了解了核心思路后,我们来展开 CA 模块的完整结构。

3.1 信息交互

如图所示,得到两路编码 \(\mathbf{z}^h\) 和 \(\mathbf{z}^w\) 后,会先将二者沿空间维度拼接,送入一个共享的 \(1 \times 1\) 卷积进行变换,再对输出进行应用 BN:

\[\mathbf{f} = \delta (\text{BN}( \text{Conv}_{1 \times 1} ([\mathbf{z}^h, \mathbf{z}^w]))) \]

其中,\(\delta\) 是非线性激活函数,论文中使用的是 h-swish:

\[\operatorname{h\text{-}swish}(x) = x \cdot \frac{\operatorname{ReLU6}(x + 3)}{6} \]

\[\operatorname{ReLU6}(z) = \min(\max(z, 0), 6)) \]

但论文里也提到这里只是为了引入非线性,并不强制某个具体函数。

而输出的 \(\mathbf{f} \in \mathbb{R}^{C/r \times (H+W) \times 1}\),\(r\) 是降维比例,与 SE 中的含义一致。

这一步的目的很明显:让水平和垂直两个方向的信息交互融合

3.2 权重生成和注入

完成两个方向上的信息交互后,我们就要再把他们拆开:

将 \(\mathbf{f}\) 沿空间维度拆分为 \(\mathbf{f}^h \in \mathbb{R}^{C/r \times H \times 1}\) 和 \(\mathbf{f}^w \in \mathbb{R}^{C/r \times 1 \times W}\),然后各自通过一个 \(1 \times 1\) 卷积恢复到原始通道数 \(C\),再经过 Sigmoid 得到最终的注意力权重:

\[\mathbf{g}^h = \sigma\big( \text{Conv}_{1 \times 1}^h(\mathbf{f}^h) \big) \]

\[\mathbf{g}^w = \sigma\big( \text{Conv}_{1 \times 1}^w(\mathbf{f}^w) \big) \]

这里,权重 \(\mathbf{g}_c^h(i)\) 在同一行的所有列是共享的,而 \(\mathbf{g}_c^w(j)\) 在同一列的所有行是共享的。

最终,输入特征图 \(\mathbf{X}_c\) 上的每个位置 \((i, j)\) 会被同时沿两个方向的权重加权:

\[\mathbf{Y}_c(i,j) = \mathbf{X}_c(i,j) \times \mathbf{g}^h_c(i) \times \mathbf{g}^w_c(j) \]

也就是说,位置 \((i,j)\) 的最终权重是由"第 \(i\) 行整体有多重要"和"第 \(j\) 列整体有多重要"共同决定的,这也就是"坐标注意力 "的含义。

这便是 CA 模块的完整逻辑,其最大的改进在于将最初的全局池化改为两个方向上的池化。

4. CA 的参数量

最后,我们再来看看 CA 所需要的参数量:

首先是对拼接后的特征 \(\left[\mathbf{z}^h, \mathbf{z}^w\right]\) 进行的 \(1 \times 1\) 卷积降维,这一层的参数量为:

\[C \times \frac{C}{r} = \frac{C^2}{r} \]

这一点与 SE 完全一致,本质就是一个通道压缩。

接下来,CA 会分成两路,各自通过一个 \(1 \times 1\) 卷积恢复通道数,具体为:

\[\frac{C}{r} \rightarrow C \]

因此,每一路的参数量都是:

\[\frac{C}{r} \times C = \frac{C^2}{r} \]

总计:

\[2 \times \frac{C^2}{r} = \frac{2C^2}{r} \]

最终,将两部分相加,CA 的总参数量为:

\[\frac{C^2}{r} + \frac{2C^2}{r} = \frac{3C^2}{r} \]

可以发现:CA 比 SE 多了 \(\frac{C^2}{r}\),也就是多出约 50% 的通道注意力参数。

但相应地,这换来了空间建模的能力。

而 CBAM 的参数量为:

\[\frac{2C^2}{r} + 98(7 \times7卷积) \]

因此,二者的参数量还需要在具体数据中进行对比。

不过显而易见的是: CA 省掉了独立的空间注意力模块,避免了额外分支,这带来了结构上的工程优势。

最终,CA 在 MobileNetV2 和 MobileNeXt 等轻量级网络上替换 SE 后,在 ImageNet 分类和 COCO 目标检测上均取得了稳定提升,并且在多数任务上的指标也优于 CBAM,证明了保留空间位置信息对注意力机制的实用价值

相关推荐
XingshiXu1 小时前
【NWAFU×KUL】不打扰,也能看懂一头牛:非接触式技术正在改变精准畜牧
人工智能·python·深度学习·目标检测·机器学习·计算机视觉·目标跟踪
AI科技星2 小时前
光子本源三元结构定理(《全域数学·物理原本》)【乖乖数学】
人工智能·机器学习·数学建模·数据挖掘·agi
逻辑君2 小时前
认知神经科学研究报告【20260023】
人工智能·神经网络·机器学习
2zcode2 小时前
基于集成学习的心肺听诊音自动分类系统设计与实现
机器学习·分类·集成学习
周末也要写八哥2 小时前
代码中的注释的重要性(一)
人工智能·机器学习
多年小白3 小时前
【盘前分析】2026年5月6日(周三)节后首日开盘指南
科技·gpt·百度·ai
-嘟囔着拯救世界-3 小时前
手把手教你低成本搭建 GPT-image-2 工作流,再也不愁没有好配图了!
人工智能·gpt·ai·ai作画·aigc·gpt-image-2
爱写代码的汤二狗3 小时前
同样用 AI,有人 18 点下班,有人 21 点加班——差在 1 个动作
人工智能·经验分享·ai·claude
weixin_699602443 小时前
AI身份证照片生成API集成指南
ai