在上一篇中,我们已经解决了一个关键问题:
RoI Pooling 的误差主要来源于"坐标量化",而 RoI Align 通过去除取整 + 双线性插值,有效缓解了这一问题。
但说到底,这只是一个对齐问题上的改进,我们在上篇的末尾也提到了新的方向:
能不能让采样过程,具备一定的结构感知能力?
实际上,早在 RoI Align 之前,就已经有方法具备了这一思路的雏形 ,那就是 Position-Sensitive RoI Pooling,可以直译为位置敏感的候选框池化,简称 PS RoI Pooling.
显然,其重点就在这个"位置敏感"上,下面就来详细展开:
1. RS RoI Pooling 的背景和思想
RS RoI Pooling 来源于 16 年提出的目标检测模型:R-FCN: Object Detection via Region-based Fully Convolutional Networks.
在这篇论文中,作者指出:
传统 RoI Pooling 的一个核心问题是:它们对空间信息"不敏感"。
展开来说,在 RoI Pooling 里,我们将原始图像输入网络,得到一个 feature map,其尺寸为:
\[H \times W \times C \]
根据基本的卷积知识,我们知道:这里的 C 个通道,本质上是学习得到的"语义滤波器" ,比如某些通道对"边缘"敏感、某些对"纹理"敏感,而某些对"人脸整体"敏感等等。
简单来说就是:feature map 的一个通道对应一种提取出的特征。
但问题在于:
同一个通道,在左上角和右下角的"含义是一样的"。
再针对这句话展开,我们知道:在 CNN 里,一个通道不是随便来的,它对应的是同一个卷积核(filter)在整张图上滑动得到的响应 。
也就是说:同一个卷积核,在不同位置检测的是"同一种模式",并不会受到空间位置的影响。
比如某个通道学到了"检测眼睛",那这个通道在 feature map 上的左上位置有高响应,就说明那里有"眼睛"、右下位置有高响应,就说明那里也有"眼睛",它不会区分"这是左上还是右下"。
现在回到我们的任务:一个 RoI(假设为人脸),被分成 \(3 \times 3\):
根据认知,我们当然知道左上是眼睛、中间是鼻子、下方是嘴等分布。
但实际上 feature map 提供的其实是:
| 通道 | 意义 |
|---|---|
| channel 5 | "有没有眼睛" |
| channel 12 | "有没有鼻子" |
| channel 27 | "有没有嘴巴" |
现在的矛盾点是:
通道本身不区分位置,但任务却要求"不同位置关注不同语义"。
如果网络要学习到上面的认知,就要依靠反向传播中不同区域的梯度分布,让网络隐式学习来实现。
关键来了,最终模型必须在同一套参数中同时学两件事:
- 学语义建模:学习 channel 表示什么,如 channel 5 = 眼睛、channel 12 = 鼻子这类信息。
- 学空间对齐:学习这些语义在不同空间位置的"使用方式",如左上区域更关注 channel 5,中间区域更关注 channel 12 等。
这两件事,本质上是可以解耦的,但现在却耦合在了一起。
而且在这种位置无关的特征表示下,不当的 Pooling 操作就会进一步压缩空间结构,使不同位置的语义差异被平均化,从而加剧信息混淆。

于是,RS RoI Pooling 的做法是:
把"位置"直接写进通道,用某个固定的通道来专门负责某个位置,实现"位置敏感"。
下面就来展开其详细逻辑:
2.PS RoI Pooling 的具体改进
在理解了"位置敏感"的核心思想之后,现在的问题就变成了:
如何在具体实现中,把"空间位置"编码进通道?
为此,PS RoI Pooling 的在 RoI Pooling 的框架下进行了两步关键改进:
- 构建位置敏感特征图
- 按位置进行通道选择并池化
下面就来逐个展开:
2.1 特征图处理
在传统的 RoI Pooling 中,负责从原始图像中提取通用特征的主干网络 backbone 输出的 feature map 会被直接用于后续操作。
但在 PS RoI Pooling 中,会多出一个关键步骤:
在原 feature map 上额外接一个 \(1 \times 1\) 卷积,用于生成"位置敏感特征图"。
假设 backbone 输出为:
\[H \times W \times C_{in} \]
而我们希望最终得到的 RoI 划分后 bin 的数量是:
\[k \times k \]
同时任务中有 \(C\) 个类别,那么这个 \(1 \times 1\) 卷积的输出通道数将被设计为:
\[C \times k \times k \]
也就是说,最终得到的特征图尺寸为:
\[H \times W \times (C \cdot k^2) \]

如图所示,这里的关键在于:
这 \(C \cdot k^2\) 个通道,是带有明确空间语义划分的通道。
我们可以将其按类别进行分组:每个类别有自己的 \(k \times k\) 个通道,并且每个通道对应 RoI 中的一个固定空间位置。
举个例子,假设 \(k = 2\) ,当前类别为 "人",那么该类别对应的 4 个通道,就可以理解为:
| 通道编号 | 语义 |
|---|---|
| 1 | 左上 |
| 2 | 右上 |
| 3 | 左下 |
| 4 | 右下 |
总结这一步的逻辑如下:
通过 \(1 \times 1\) 卷积,在不改变空间分辨率的前提下,对通道进行线性重组,使其具备位置语义。
2.2 通道池化
现在,我们完成了位置敏感特征图的构建,并且知道了每一个通道都对应于一个类别的 bin ,很容易想到这一步的改进:
每个 bin 不再使用"所有通道",而是只使用"与自身位置对应的那一个通道"。
我们继续上一步的例子来说明:
此时对于"人"类别,我们已经得到了 4 个位置敏感通道:
| bin 位置 | 对应通道 |
|---|---|
| 左上 \((0,0)\) | channel 1 |
| 右上 \((0,1)\) | channel 2 |
| 左下 \((1,0)\) | channel 3 |
| 右下 \((1,1)\) | channel 4 |
而到了这里,具体的池化逻辑是这样的:
每一个 bin 的特征计算,只在"对应的那一张位置敏感特征图"上进行,并且只取该 bin 区域的值,进行池化。

到在完成所有 \(k \times k\) 个 bin 的计算后,对每个类别,我们都会得到一个 \(k \times k\) 大小结构化的输出。
不同于原始 RoI Pooling ,现在的结果不再是"混合语义特征",而是具有明确语义:每个空间位置对当前类别的独立响应。
实际上,原论文最后还有一步改进,就是将最后聚合的全连接层直接改为投票 :将所有位置的响应进行累加或平均,得到该类别的最终得分。
\[score_c = \sum_{i,j} y_c(i,j) \]
并不复杂,简单理解就是:在输出绑定空间位置的情况下,每个元素都有明确语义:局部判断,我们直接使用它们合成全局判断就好。不再多说了。
3.RS RoI Pooling 和 RoI Align
总结来说,RS RoI Pooling 通过对特征图通道数的设计实现了一种较原始的"内容感知"。
以此,我们再对比来看看 RoI Align 。
首先要说明的是时间线:RoI Align 的提出晚于 RS RoI Pooling 1 年。
R-FCN 在设计上也并未引入精细的几何对齐机制,而是通过通道绑定实现空间对齐。
而 RoI Align 的出现,则是因为在实例分割等任务中,像素级误差会显著影响边界质量。
这里很容易有这样一个想法:
可惜,答案是否定的。
问题在于,这两种方法对"空间"有完全不同的定义。
PS RoI Pooling 实际上是在做一件事:把 RoI 内部的空间划分,直接绑定到通道结构上。
本质上来说,这种逻辑划分的空间结构是"离散的",每个 bin 被确定在固定语义位置,通道划分明确。
而提出 RoI Align 的 Mask R-CNN 则相反: 空间必须保持连续性,任何离散化都会带来误差。
如果我们尝试"先 RoI Align,再 PS Pooling",会导致通道和空间位置的硬绑定关系被破坏 。因为插值之后,一个位置的特征就会来自多个邻域,不再严格属于某一个空间 bin。
反过来,如果"先 PS Pooling 再 Align"空间已经被映射到通道,再做几何插值虽然可以实现,但现在的特征已经不再依靠"连续性"了,意义不大。

因此,在实际工程中,二者往往不会一起使用。
于此同时,这两种方法虽然分别优化了不同问题,但也都存在各自局限:
- RS RoI Pooling:虽然实现了初版的"内容感知",但结构仍是人为固定划分的。
- RoI Align:几何对齐也是手工设计的插值规则。
也就是说:采样规则和结构仍然是静态的,并不能"自适应"不同的内容。
自然而然地,一种最符合深度学习思想的逻辑出现了:
如果空间结构本身是复杂变化的,那能不能让"采样方式"也变成可学习的?
这便是下一篇内容。