上一篇我们介绍了 ECA，它用一维卷积替代了 SE 中的 MLP bottleneck，用更少的参数实现了更好的通道注意力。

但实际上，这套框架里还有别的优化空间：

在前面的内容里，无论是 SE、CBAM 还是 ECA，它们的通道注意力子模块第一步都是 全局平均池化 （CBAM 额外加入了最大池化），将 $H \times W \times C$ 的特征图压缩为 $1 \times 1 \times C$。

这个过程实际上等价于把所有空间信息做了一个全局平均。对于要得出一个整体性的通道权重来说，这看起来是合理的。

但还有高手，21 年的论文 Coordinate Attention for Efficient Mobile Network Design 提出了新的观点：

GAP 把空间位置信息全部丢弃了，而"特征在图像的哪个位置"本身就是重要信息。通道注意力完全可以同时编码通道关系和空间位置信息。

由此论文提出了 坐标注意力（Coordinate Attention，CA），下面就来详细展开。

1. GAP 的局限性

我们还是先展开 CA 的提出动机，已知对于第 $c$ 个通道的特征图 $\mathbf{X}_c \in \mathbb{R}^{H \times W}$，GAP 的操作是：

\ $z_c = \\frac{1}{H \\times W} \\sum_{i=1}\^{H} \\sum_{j=1}\^{W} \\mathbf{X}_c(i,j) \\$

从效果上讲，GAP 能得到这个通道整体的响应强度。虽然带来了空间信息的损失，但因为这不是我们所关注的内容，因此仍然合理。

但 CA 对此提出了质疑，我们从两个问题出发阐述作者的思路。

1. 同一通道内，特征的大致位置重要吗？

答案是肯定的。

举个例子：同一个"耳朵轮廓"通道，它出现在图像的左上角还是右下角，对判定"这是猫还是狗"的决策路径可能完全不同。

但 GAP 后，这两种情况会得到完全相同的通道描述标量。

2. 通道之间，位置关系的交互重要吗？

同样重要。

比如"耳朵"通道和"眼睛"通道在空间位置上是高度相关的，它们应该出现在彼此附近。但这种跨通道的空间位置关联 在 GAP 之后完全丢失。

ECA 虽然用一维卷积引入了局部通道交互，但它交互的是 GAP 之后的标量，空间的原始结构也早已被破坏。

你可能会想：

我们这么用本来就是只想算通道注意力，空间注意力我有另外的模块去做，你干嘛揪着这点不放？

但 CA 的作者说：

用我的方法，一个模块就可以实现这两个模块的工作，而且大多数情况下性能更好。

这便是 CA 的出发点，如果说 ECA 是 SE 的改进，那么从作用效果上来看，你也可以把 CA 看作 CBAM 的一种改进。

下面就来展开其具体逻辑:

2. CA 的具体改进点

既然 GAP 的问题是"一次性全局压缩丢失了空间信息"，那 CA 的解决思路也很直接：

不要一次性把整个空间压成一个标量。而是沿两个空间方向分别编码，保留位置信息。

具体来说，CA 使用了两路并行的池化操作：

沿水平方向（X 轴）池化 ：对每一行做平均池化，得到 $\mathbf{z}^h \in \mathbb{R}^{C \times H \times 1}$。
沿垂直方向（Y 轴）池化 ：对每一列做平均池化，得到 $\mathbf{z}^w \in \mathbb{R}^{C \times 1 \times W}$。

用公式表示，对于第 $c$ 个通道就是：

\ $z_c\^h(h) = \\frac{1}{W} \\sum_{0 \\le i \< W} \\mathbf{X}_c(h, i) \\$

\ $z_c\^w(w) = \\frac{1}{H} \\sum_{0 \\le j \< H} \\mathbf{X}_c(j, w) \\$

于是，CA 生成了两组向量：一个沿高度方向，一个沿宽度方向。这两组向量保留了特征沿各自空间方向上的分布信息。

如果某个通道在图像的顶部响应强、底部响应弱，那么它的 $\mathbf{z}^h$ 向量会呈现出"上大下小"的趋势。

其实到这里，你会发现这还是一个粒度问题 ：

原本我们将一整个通道上的信息压缩为一个标量，现在我们将其压缩为两个方向上的向量，保留了空间维度上的信息，让模型可以学习到空间注意力。

3. CA 的完整结构

了解了核心思路后，我们来展开 CA 模块的完整结构。

3.1 信息交互

如图所示，得到两路编码 $\mathbf{z}^h$ 和 $\mathbf{z}^w$ 后，会先将二者沿空间维度拼接，送入一个共享的 $1 \times 1$ 卷积进行变换，再对输出进行应用 BN：

\ $\\mathbf{f} = \\delta (\\text{BN}( \\text{Conv}_{1 \\times 1} (\[\\mathbf{z}\^h, \\mathbf{z}\^w$ ))) \]

其中，$\delta$ 是非线性激活函数，论文中使用的是 h-swish:

\ $\\operatorname{h\\text{-}swish}(x) = x \\cdot \\frac{\\operatorname{ReLU6}(x + 3)}{6} \\$

\ $\\operatorname{ReLU6}(z) = \\min(\\max(z, 0), 6)) \\$

但论文里也提到这里只是为了引入非线性，并不强制某个具体函数。

而输出的 $\mathbf{f} \in \mathbb{R}^{C/r \times (H+W) \times 1}$，$r$ 是降维比例，与 SE 中的含义一致。

这一步的目的很明显：让水平和垂直两个方向的信息交互融合。

3.2 权重生成和注入

完成两个方向上的信息交互后，我们就要再把他们拆开：

将 $\mathbf{f}$ 沿空间维度拆分为 $\mathbf{f}^h \in \mathbb{R}^{C/r \times H \times 1}$ 和 $\mathbf{f}^w \in \mathbb{R}^{C/r \times 1 \times W}$，然后各自通过一个 $1 \times 1$ 卷积恢复到原始通道数 $C$，再经过 Sigmoid 得到最终的注意力权重：

\ $\\mathbf{g}\^h = \\sigma\\big( \\text{Conv}_{1 \\times 1}\^h(\\mathbf{f}\^h) \\big) \\$

\ $\\mathbf{g}\^w = \\sigma\\big( \\text{Conv}_{1 \\times 1}\^w(\\mathbf{f}\^w) \\big) \\$

这里，权重 $\mathbf{g}_c^h(i)$ 在同一行的所有列是共享的，而 $\mathbf{g}_c^w(j)$ 在同一列的所有行是共享的。

最终，输入特征图 $\mathbf{X}_c$ 上的每个位置 $(i, j)$ 会被同时沿两个方向的权重加权：

\ $\\mathbf{Y}_c(i,j) = \\mathbf{X}_c(i,j) \\times \\mathbf{g}\^h_c(i) \\times \\mathbf{g}\^w_c(j) \\$

也就是说，位置 $(i,j)$ 的最终权重是由"第 $i$ 行整体有多重要"和"第 $j$ 列整体有多重要"共同决定的，这也就是"坐标注意力 "的含义。

这便是 CA 模块的完整逻辑，其最大的改进在于将最初的全局池化改为两个方向上的池化。

4. CA 的参数量

最后，我们再来看看 CA 所需要的参数量：

首先是对拼接后的特征 $\left $\\mathbf{z}\^h, \\mathbf{z}\^w\\right$ $ 进行的 $1 \times 1$ 卷积降维，这一层的参数量为：

\ $C \\times \\frac{C}{r} = \\frac{C\^2}{r} \\$

这一点与 SE 完全一致，本质就是一个通道压缩。

接下来，CA 会分成两路，各自通过一个 $1 \times 1$ 卷积恢复通道数，具体为：

\ $\\frac{C}{r} \\rightarrow C \\$

因此，每一路的参数量都是：

\ $\\frac{C}{r} \\times C = \\frac{C\^2}{r} \\$

总计：

\ $2 \\times \\frac{C\^2}{r} = \\frac{2C\^2}{r} \\$

最终，将两部分相加，CA 的总参数量为：

\ $\\frac{C\^2}{r} + \\frac{2C\^2}{r} = \\frac{3C\^2}{r} \\$

可以发现：CA 比 SE 多了 $\frac{C^2}{r}$，也就是多出约 50% 的通道注意力参数。

但相应地，这换来了空间建模的能力。

而 CBAM 的参数量为：

\ $\\frac{2C\^2}{r} + 98(7 \\times7卷积) \\$

因此，二者的参数量还需要在具体数据中进行对比。

不过显而易见的是： CA 省掉了独立的空间注意力模块，避免了额外分支，这带来了结构上的工程优势。

最终，CA 在 MobileNetV2 和 MobileNeXt 等轻量级网络上替换 SE 后，在 ImageNet 分类和 COCO 目标检测上均取得了稳定提升，并且在多数任务上的指标也优于 CBAM，证明了保留空间位置信息对注意力机制的实用价值。