在上一篇中，我们已经解决了一个关键问题：

RoI Pooling 的误差主要来源于"坐标量化"，而 RoI Align 通过去除取整 + 双线性插值，有效缓解了这一问题。

但说到底，这只是一个对齐问题上的改进，我们在上篇的末尾也提到了新的方向：

能不能让采样过程，具备一定的结构感知能力？

实际上，早在 RoI Align 之前，就已经有方法具备了这一思路的雏形，那就是 Position-Sensitive RoI Pooling，可以直译为位置敏感的候选框池化，简称 PS RoI Pooling.

显然，其重点就在这个"位置敏感"上，下面就来详细展开：

1. RS RoI Pooling 的背景和思想

RS RoI Pooling 来源于 16 年提出的目标检测模型：R-FCN: Object Detection via Region-based Fully Convolutional Networks.

在这篇论文中，作者指出：

传统 RoI Pooling 的一个核心问题是：它们对空间信息"不敏感"。

展开来说，在 RoI Pooling 里，我们将原始图像输入网络，得到一个 feature map，其尺寸为：

\[H \times W \times C \]

根据基本的卷积知识，我们知道：这里的 C 个通道，本质上是学习得到的"语义滤波器" ，比如某些通道对"边缘"敏感、某些对"纹理"敏感，而某些对"人脸整体"敏感等等。

简单来说就是：feature map 的一个通道对应一种提取出的特征。

但问题在于：

同一个通道，在左上角和右下角的"含义是一样的"。

再针对这句话展开，我们知道：在 CNN 里，一个通道不是随便来的，它对应的是同一个卷积核（filter）在整张图上滑动得到的响应 。

也就是说：同一个卷积核，在不同位置检测的是"同一种模式"，并不会受到空间位置的影响。

比如某个通道学到了"检测眼睛"，那这个通道在 feature map 上的左上位置有高响应，就说明那里有"眼睛"、右下位置有高响应，就说明那里也有"眼睛"，它不会区分"这是左上还是右下"。

现在回到我们的任务：一个 RoI（假设为人脸），被分成 \(3 \times 3\)：

根据认知，我们当然知道左上是眼睛、中间是鼻子、下方是嘴等分布。

但实际上 feature map 提供的其实是：

通道	意义
channel 5	"有没有眼睛"
channel 12	"有没有鼻子"
channel 27	"有没有嘴巴"

现在的矛盾点是：

通道本身不区分位置，但任务却要求"不同位置关注不同语义"。

如果网络要学习到上面的认知，就要依靠反向传播中不同区域的梯度分布，让网络隐式学习来实现。

关键来了，最终模型必须在同一套参数中同时学两件事：

学语义建模：学习 channel 表示什么，如 channel 5 = 眼睛、channel 12 = 鼻子这类信息。
学空间对齐：学习这些语义在不同空间位置的"使用方式"，如左上区域更关注 channel 5，中间区域更关注 channel 12 等。

这两件事，本质上是可以解耦的，但现在却耦合在了一起。

而且在这种位置无关的特征表示下，不当的 Pooling 操作就会进一步压缩空间结构，使不同位置的语义差异被平均化，从而加剧信息混淆。

于是，RS RoI Pooling 的做法是：

把"位置"直接写进通道，用某个固定的通道来专门负责某个位置，实现"位置敏感"。

下面就来展开其详细逻辑：

2.PS RoI Pooling 的具体改进

在理解了"位置敏感"的核心思想之后，现在的问题就变成了：

如何在具体实现中，把"空间位置"编码进通道？

为此，PS RoI Pooling 的在 RoI Pooling 的框架下进行了两步关键改进：

构建位置敏感特征图
按位置进行通道选择并池化

下面就来逐个展开：

2.1 特征图处理

在传统的 RoI Pooling 中，负责从原始图像中提取通用特征的主干网络 backbone 输出的 feature map 会被直接用于后续操作。

但在 PS RoI Pooling 中，会多出一个关键步骤：

在原 feature map 上额外接一个 \(1 \times 1\) 卷积，用于生成"位置敏感特征图"。

假设 backbone 输出为：

\[H \times W \times C_{in} \]

而我们希望最终得到的 RoI 划分后 bin 的数量是：

\[k \times k \]

同时任务中有 \(C\) 个类别，那么这个 \(1 \times 1\) 卷积的输出通道数将被设计为：

\[C \times k \times k \]

也就是说，最终得到的特征图尺寸为：

\[H \times W \times (C \cdot k^2) \]

如图所示，这里的关键在于：

这 \(C \cdot k^2\) 个通道，是带有明确空间语义划分的通道。

我们可以将其按类别进行分组：每个类别有自己的 \(k \times k\) 个通道，并且每个通道对应 RoI 中的一个固定空间位置。

举个例子，假设 \(k = 2\) ，当前类别为 "人"，那么该类别对应的 4 个通道，就可以理解为：

通道编号	语义
1	左上
2	右上
3	左下
4	右下

总结这一步的逻辑如下：

通过 \(1 \times 1\) 卷积，在不改变空间分辨率的前提下，对通道进行线性重组，使其具备位置语义。

2.2 通道池化

现在，我们完成了位置敏感特征图的构建，并且知道了每一个通道都对应于一个类别的 bin ，很容易想到这一步的改进：

每个 bin 不再使用"所有通道"，而是只使用"与自身位置对应的那一个通道"。

我们继续上一步的例子来说明：

此时对于"人"类别，我们已经得到了 4 个位置敏感通道：

bin 位置	对应通道
左上 \((0,0)\)	channel 1
右上 \((0,1)\)	channel 2
左下 \((1,0)\)	channel 3
右下 \((1,1)\)	channel 4

而到了这里，具体的池化逻辑是这样的：

每一个 bin 的特征计算，只在"对应的那一张位置敏感特征图"上进行，并且只取该 bin 区域的值，进行池化。

到在完成所有 \(k \times k\) 个 bin 的计算后，对每个类别，我们都会得到一个 \(k \times k\) 大小结构化的输出。

不同于原始 RoI Pooling ，现在的结果不再是"混合语义特征"，而是具有明确语义：每个空间位置对当前类别的独立响应。

实际上，原论文最后还有一步改进，就是将最后聚合的全连接层直接改为投票：将所有位置的响应进行累加或平均，得到该类别的最终得分。

\[score_c = \sum_{i,j} y_c(i,j) \]

并不复杂，简单理解就是：在输出绑定空间位置的情况下，每个元素都有明确语义：局部判断，我们直接使用它们合成全局判断就好。不再多说了。

3.RS RoI Pooling 和 RoI Align

总结来说，RS RoI Pooling 通过对特征图通道数的设计实现了一种较原始的"内容感知"。

以此，我们再对比来看看 RoI Align 。

首先要说明的是时间线：RoI Align 的提出晚于 RS RoI Pooling 1 年。

R-FCN 在设计上也并未引入精细的几何对齐机制，而是通过通道绑定实现空间对齐。

而 RoI Align 的出现，则是因为在实例分割等任务中，像素级误差会显著影响边界质量。

这里很容易有这样一个想法：

看起来二者好像并不冲突，能不能就像 Adam组合Momentum和RMSprop一样，合成二者得到更好的方法？

可惜，答案是否定的。
问题在于，这两种方法对"空间"有完全不同的定义。

PS RoI Pooling 实际上是在做一件事：把 RoI 内部的空间划分，直接绑定到通道结构上。

本质上来说，这种逻辑划分的空间结构是"离散的"，每个 bin 被确定在固定语义位置，通道划分明确。

而提出 RoI Align 的 Mask R-CNN 则相反： 空间必须保持连续性，任何离散化都会带来误差。

如果我们尝试"先 RoI Align，再 PS Pooling"，会导致通道和空间位置的硬绑定关系被破坏 。因为插值之后，一个位置的特征就会来自多个邻域，不再严格属于某一个空间 bin。

反过来，如果"先 PS Pooling 再 Align"空间已经被映射到通道，再做几何插值虽然可以实现，但现在的特征已经不再依靠"连续性"了，意义不大。

因此，在实际工程中，二者往往不会一起使用。

于此同时，这两种方法虽然分别优化了不同问题，但也都存在各自局限：

RS RoI Pooling：虽然实现了初版的"内容感知"，但结构仍是人为固定划分的。
RoI Align：几何对齐也是手工设计的插值规则。

也就是说：采样规则和结构仍然是静态的，并不能"自适应"不同的内容。

自然而然地，一种最符合深度学习思想的逻辑出现了：

如果空间结构本身是复杂变化的，那能不能让"采样方式"也变成可学习的？

这便是下一篇内容。

深度学习进阶（十一）Position-Sensitive RoI Pooling

1. RS RoI Pooling 的背景和思想

2.PS RoI Pooling 的具体改进

2.1 特征图处理

2.2 通道池化

3.RS RoI Pooling 和 RoI Align