在上一篇中，我们已经明确指出：

RoI Pooling 的核心问题并不在于 Pooling 本身，而在于"取整导致的量化误差"。

那么，一个非常直接的思路就是：

既然误差来自"取整"，那就不要取整。

这正是 RoI Align 的出发点。

1. RoI Align 的提出和思想

RoI Align 来源于 17 年提出的经典目标检测与实例分割模型： Mask R-CNN.

在这篇论文中，作者明确指出：RoI Pooling 的量化误差会显著影响像素级任务。

因此，他们提出了一种针对性的改进：

不改变整体框架，只修正对齐方式。

RoI Align 核心思想也并不复杂，总结来说就是：

取消的是 RoI 边界映射和 bin 分割中的取整，保留所有浮点数表示的边界，用双线性插值来获取采样点。

下面来详细展开：

2. RoI Align 的具体改进

2.1 候选框映射

在这一步的改进较为简单，就是直接省去取整步骤 ：

2.2 划分子区域

这一步和原本的 RoI Pooling 没有区别，只是候选框并没有取整。

我们直接用图中的例子来演示完整逻辑，设 $k \times k = 2 \times 2$ ，已知 RoI 为：

\ $(x_1, y_1, x_2, y_2) = (0.8, 0, 2.4, 4.5) \\$

首先计算 RoI 在特征图上的宽和高：

\ $w = x_2 - x_1 = 2.4 - 0.8 = 1.6，h = y_2 - y_1 = 4.5 \\$

因为要划分为 $2 \times 2$，计算得到每个 bin 的尺寸为：

\ $w_{bin} = \\frac{w}{2} = \\frac{1.6}{2} = 0.8，h_{bin} = \\frac{h}{2} = \\frac{4.5}{2} = 2.25 \\$

最终，四个子区域划分如下：

位置	x 范围	y 范围
左上 (0,0)	$ $0.8, 1.6$ $	$ $0,2.25$ $
右上 (0,1)	$ $1.6,2.4$ $	$ $0,2.25$ $
左下 (1,0)	$ $0.8, 1.6$ $	$ $2.25,4.5$ $
右下 (1,1)	$ $1.6,2.4$ $	$ $2.25,4.5$ $

现在，整个 RoI 被均匀、连续地切分，没有任何量化误差。

但新的问题是：

连续划分的 bin 并不和特征图网格完全贴合，要如何取样进行下一步池化？

这便是 RoI Align 的核心内容，关键点只有一句话：

既然采样点不再落在整数网格上，那就必须"估算"这个位置的特征值。

2.3 线性插值和双线性插值

插值是使用离散点估计连续值 的常见方法，我们先简单介绍一下。

假设在一条数轴上，我们已知两个点的值：

\ $f(1)=1,f(2)=2 \\$

现在我们想求一个中间位置 $x=1.3$ 的值，该怎么办？

直觉上，这个点更接近 1，因此它的值应该更偏向 $f(1)$。

所以，这里线性插值的公式就是：

\ $f(x) = (1 - \\lambda) \\cdot f(1) + \\lambda \\cdot f(2) \\$

其中：

\ $\\lambda = x - 1 = 0.3 \\$

最终得到估计值：

\ $f(1.3) = 0.7 \\cdot f(1) + 0.3 \\cdot f(2)= 1.3 \\$

这便是一维线性插值的逻辑，由此我们推广到二维的双线性插值：

特征图是一个二维离散网格 ，而我们的采样点 $(x, y)$ 通常是浮点数，比如：

\ $(x, y) = (1.3, 2.7) \\$

就像我们现在遇到的，这个点不会正好落在某个像素中心，而是落在一个"格子内部"。

其周围最近的四个整数点是（以视觉任务中惯例的左上角为原点）：

左上：$(x_1, y_1) = (1, 2)$
右上：$(x_2, y_1) = (2, 2)$
左下：$(x_1, y_2) = (1, 3)$
右下：$(x_2, y_2) = (2, 3)$

双线性插值本质是：先横向插值，再纵向插值（或者反过来也一样）。

于是，我们定义：

\ $dx = x - x_1,\\quad dy = y - y_1 \\$

在本例中不难得到：

\ $dx = 0.3,\\quad dy = 0.7 \\$

最终结果是四个点的加权和：

\ $f(x, y) = (1 - dx)(1 - dy) \\cdot f(x_1, y_1) + dx(1 - dy) \\cdot f(x_2, y_1) + (1 - dx)dy \\cdot f(x_1, y_2)+dxdy \\cdot f(x_2, y_2) \\$

总结双线性插值的逻辑如下：

一个采样点的值，是由它周围四个网格点"按距离加权平均"得到的。越近权重越大，越远权重越小，四个权重加起来刚好为 1 。

到这里，就可以明白 RoI Align 的采样思路了。

2.4 采样每个子区域

现在，我们已经有了划分好的连续子区域，这些 bin 不像取整划分一样直接固定好了采样点。因此问题变成了：

一个 bin 内，到怎么取点？取多少个点？

这就引出了新的超参数：采样率（sampling ratio），或者采样密度。

具体展开，对于每个 bin，在两个方向分别定义采样率：

\ $r_x,r_y \\$

我们可以手动指定两个方向的采样率，在原论文的设计中，每个 bin 内固定为 4 个规则采样点。但现代更常见的是自适应采样：

\ $r_x = \\lceil w_{bin} \\rceil,\\quad r_y = \\lceil h_{bin} \\rceil \\$

得到采样率后，我们就可以以此划分该方向的步长：

\ $step = \\frac{length}{r} \\$

最终，我们以等分加中心偏移的形式得到采样点的位置：

\ $x_i = x_{start} + (i + 0.5)\\cdot step \\$

\ $y_i = y_{start} + (i + 0.5)\\cdot step \\$

这种设计是为了让点"取中心"，不然不同 bin 的采样点就会在边界处发生重合，在偶数采样率时还会发生不对称取点的情况。 在下面的例子里就可以直观感受到这点。

先总结采样逻辑如下：

直接对 bin 的尺寸向上取整，作为该方向的采样率。以此在 x 和 y 方向分别均匀划分，形成规则的 $r_x \times r_y$ 个采样点。

我们用之前得到的左上角 bin 作为例子：

位置	x 范围	y 范围
左上	$ $0.8, 1.6$ $	$ $0, 2.25$ $

按照自适应策略：

\ $r_x = \\lceil w_{bin} \\rceil = \\lceil 0.8 \\rceil = 1 ，r_y = \\lceil h_{bin} \\rceil = \\lceil 2.25 \\rceil = 3 \\$

也就是说，这个 bin 在 x 方向只取 1 个点，在 y 方向取 3 个点。

继续计算步长：

\ $step_x = \\frac{0.8}{1} = 0.8，step_y = \\frac{2.25}{3} = 0.75 \\$

代入公式得到最终结果：

\ $x_0 = 0.8 + (0 + 0.5)\\cdot 0.8 = 1.2 \\$

\ $y_0 = 0 + (0 + 0.5)\\cdot 0.75 = 0.375 \\$

\ $y_1 = 0 + (1 + 0.5)\\cdot 0.75 = 1.125 \\$

\ $y_2 = 0 + (2 + 0.5)\\cdot 0.75 = 1.875 \\$

因此，这个 bin 内的采样点就是：

点编号	坐标
1	(1.2, 0.375)
2	(1.2, 1.125)
3	(1.2, 1.875)

2.5 最终输出

到这里，我们就只剩下最后一步了：对所有采样点进行双线性插值得到特征值，池化聚合输出。

这就是 RoI Align 的完整逻辑，我们以此消除了"坐标量化"这个人为错误来源。

要注意的是：不能说 RoI Align 消除了量化误差。

因为仍然存在模型本身表达能力限制、插值近似误差等"不可避免但可控"的误差。

3.RoI Align 的改进方向

现在，我们已经解决了一个核心问题：通过去除取整操作并引入双线性插值，使 RoI 从离散坐标空间回到了连续坐标空间，从而显著缓解了量化误差带来的不稳定性。

但实际上，RoI Align 仍然存在一个隐含假设：bin 内部的空间结构是相对平滑且均匀的。

这样，每个 bin 内的特征才可以通过"均匀采样 + 简单平均"来充分表示。

可是，这一假设并不总是成立。物体边界、纹理变化等内容往往在局部区域内呈现明显的不均匀性。

此时，"固定采样数量 + 均匀分布"的策略仍然可能带来信息损失，尤其是在目标尺度变化较大或结构复杂的情况下。

因此，一个新的想法就出现了：

是否可以让 RoI 内部的采样过程，具备一定的结构感知能力？

例如，在同一个 bin 中，如果某一部分区域显著包含目标信息，而另一部分主要为背景，那么理想情况下，采样分布应当能够对这种差异进行响应，而不是一视同仁地均匀取样。

这便为后续一系列改进方法提供了动机。

位置	x 范围	y 范围
左上 (0,0)	\( $0.8, 1.6$ \)	\( $0,2.25$ \)
右上 (0,1)	\( $1.6,2.4$ \)	\( $0,2.25$ \)
左下 (1,0)	\( $0.8, 1.6$ \)	\( $2.25,4.5$ \)
右下 (1,1)	\( $1.6,2.4$ \)	\( $2.25,4.5$ \)

深度学习进阶（十） RoI Align