深度学习进阶(十) RoI Align

上一篇中,我们已经明确指出:

RoI Pooling 的核心问题并不在于 Pooling 本身,而在于"取整导致的量化误差"。

那么,一个非常直接的思路就是:

既然误差来自"取整",那就不要取整。

这正是 RoI Align 的出发点。

1. RoI Align 的提出和思想

RoI Align 来源于 17 年提出的经典目标检测与实例分割模型: Mask R-CNN.

在这篇论文中,作者明确指出:RoI Pooling 的量化误差会显著影响像素级任务。

因此,他们提出了一种针对性的改进:

不改变整体框架,只修正对齐方式。

RoI Align 核心思想也并不复杂,总结来说就是:

取消的是 RoI 边界映射和 bin 分割中的取整,保留所有浮点数表示的边界,用双线性插值来获取采样点。

下面来详细展开:

2. RoI Align 的具体改进

2.1 候选框映射

在这一步的改进较为简单,就是直接省去取整步骤

2.2 划分子区域

这一步和原本的 RoI Pooling 没有区别,只是候选框并没有取整。

我们直接用图中的例子来演示完整逻辑,设 \(k \times k = 2 \times 2\) ,已知 RoI 为:

\(x_1, y_1, x_2, y_2) = (0.8, 0, 2.4, 4.5) \\

首先计算 RoI 在特征图上的宽和高:

\w = x_2 - x_1 = 2.4 - 0.8 = 1.6,h = y_2 - y_1 = 4.5 \\

因为要划分为 \(2 \times 2\),计算得到每个 bin 的尺寸为:

\w_{bin} = \\frac{w}{2} = \\frac{1.6}{2} = 0.8,h_{bin} = \\frac{h}{2} = \\frac{4.5}{2} = 2.25 \\

最终,四个子区域划分如下:

位置 x 范围 y 范围
左上 (0,0) \(0.8, 1.6\) \(0,2.25\)
右上 (0,1) \(1.6,2.4\) \(0,2.25\)
左下 (1,0) \(0.8, 1.6\) \(2.25,4.5\)
右下 (1,1) \(1.6,2.4\) \(2.25,4.5\)

现在,整个 RoI 被均匀、连续地切分,没有任何量化误差。

但新的问题是:

连续划分的 bin 并不和特征图网格完全贴合,要如何取样进行下一步池化?

这便是 RoI Align 的核心内容,关键点只有一句话:

既然采样点不再落在整数网格上,那就必须"估算"这个位置的特征值。

2.3 线性插值和双线性插值

插值是使用离散点估计连续值 的常见方法,我们先简单介绍一下。

假设在一条数轴上,我们已知两个点的值:

\f(1)=1,f(2)=2 \\

现在我们想求一个中间位置 \(x=1.3\) 的值,该怎么办?

直觉上,这个点更接近 1,因此它的值应该更偏向 \(f(1)\)。

所以,这里线性插值的公式就是:

\f(x) = (1 - \\lambda) \\cdot f(1) + \\lambda \\cdot f(2) \\

其中:

\\\lambda = x - 1 = 0.3 \\

最终得到估计值:

\f(1.3) = 0.7 \\cdot f(1) + 0.3 \\cdot f(2)= 1.3 \\

这便是一维线性插值的逻辑,由此我们推广到二维的双线性插值:

特征图是一个二维离散网格 ,而我们的采样点 \((x, y)\) 通常是浮点数,比如:

\(x, y) = (1.3, 2.7) \\

就像我们现在遇到的,这个点不会正好落在某个像素中心,而是落在一个"格子内部"。

其周围最近的四个整数点是(以视觉任务中惯例的左上角为原点):

  1. 左上:\((x_1, y_1) = (1, 2)\)
  2. 右上:\((x_2, y_1) = (2, 2)\)
  3. 左下:\((x_1, y_2) = (1, 3)\)
  4. 右下:\((x_2, y_2) = (2, 3)\)

双线性插值本质是:先横向插值,再纵向插值(或者反过来也一样)。

于是,我们定义:

\dx = x - x_1,\\quad dy = y - y_1 \\

在本例中不难得到:

\dx = 0.3,\\quad dy = 0.7 \\

最终结果是四个点的加权和:

\f(x, y) = (1 - dx)(1 - dy) \\cdot f(x_1, y_1) + dx(1 - dy) \\cdot f(x_2, y_1) + (1 - dx)dy \\cdot f(x_1, y_2)+dxdy \\cdot f(x_2, y_2) \\

总结双线性插值的逻辑如下:

一个采样点的值,是由它周围四个网格点"按距离加权平均"得到的。越近权重越大,越远权重越小,四个权重加起来刚好为 1 。

到这里,就可以明白 RoI Align 的采样思路了。

2.4 采样每个子区域

现在,我们已经有了划分好的连续子区域,这些 bin 不像取整划分一样直接固定好了采样点。因此问题变成了:

一个 bin 内,到怎么取点?取多少个点?

这就引出了新的超参数:采样率(sampling ratio),或者采样密度

具体展开,对于每个 bin,在两个方向分别定义采样率:

\r_x,r_y \\

我们可以手动指定两个方向的采样率,在原论文的设计中,每个 bin 内固定为 4 个规则采样点。但现代更常见的是自适应采样:

\r_x = \\lceil w_{bin} \\rceil,\\quad r_y = \\lceil h_{bin} \\rceil \\

得到采样率后,我们就可以以此划分该方向的步长

\step = \\frac{length}{r} \\

最终,我们以等分加中心偏移的形式得到采样点的位置:

\x_i = x_{start} + (i + 0.5)\\cdot step \\

\y_i = y_{start} + (i + 0.5)\\cdot step \\

这种设计是为了让点"取中心",不然不同 bin 的采样点就会在边界处发生重合,在偶数采样率时还会发生不对称取点的情况。 在下面的例子里就可以直观感受到这点。

先总结采样逻辑如下:

直接对 bin 的尺寸向上取整,作为该方向的采样率。以此在 x 和 y 方向分别均匀划分,形成规则的 \(r_x \times r_y\) 个采样点。

我们用之前得到的左上角 bin 作为例子:

位置 x 范围 y 范围
左上 \(0.8, 1.6\) \(0, 2.25\)

按照自适应策略:

\r_x = \\lceil w_{bin} \\rceil = \\lceil 0.8 \\rceil = 1 ,r_y = \\lceil h_{bin} \\rceil = \\lceil 2.25 \\rceil = 3 \\

也就是说,这个 bin 在 x 方向只取 1 个点,在 y 方向取 3 个点。

继续计算步长:

\step_x = \\frac{0.8}{1} = 0.8,step_y = \\frac{2.25}{3} = 0.75 \\

代入公式得到最终结果:

\x_0 = 0.8 + (0 + 0.5)\\cdot 0.8 = 1.2 \\

\y_0 = 0 + (0 + 0.5)\\cdot 0.75 = 0.375 \\

\y_1 = 0 + (1 + 0.5)\\cdot 0.75 = 1.125 \\

\y_2 = 0 + (2 + 0.5)\\cdot 0.75 = 1.875 \\

因此,这个 bin 内的采样点就是:

点编号 坐标
1 (1.2, 0.375)
2 (1.2, 1.125)
3 (1.2, 1.875)

2.5 最终输出

到这里,我们就只剩下最后一步了:对所有采样点进行双线性插值得到特征值,池化聚合输出。

这就是 RoI Align 的完整逻辑,我们以此消除了"坐标量化"这个人为错误来源。

要注意的是:不能说 RoI Align 消除了量化误差。

因为仍然存在模型本身表达能力限制、插值近似误差等"不可避免但可控"的误差。

3.RoI Align 的改进方向

现在,我们已经解决了一个核心问题:通过去除取整操作并引入双线性插值,使 RoI 从离散坐标空间回到了连续坐标空间,从而显著缓解了量化误差带来的不稳定性。

但实际上,RoI Align 仍然存在一个隐含假设:bin 内部的空间结构是相对平滑且均匀的。

这样,每个 bin 内的特征才可以通过"均匀采样 + 简单平均"来充分表示。

可是,这一假设并不总是成立。物体边界、纹理变化等内容往往在局部区域内呈现明显的不均匀性。

此时,"固定采样数量 + 均匀分布"的策略仍然可能带来信息损失,尤其是在目标尺度变化较大或结构复杂的情况下。

因此,一个新的想法就出现了:

是否可以让 RoI 内部的采样过程,具备一定的结构感知能力?

例如,在同一个 bin 中,如果某一部分区域显著包含目标信息,而另一部分主要为背景,那么理想情况下,采样分布应当能够对这种差异进行响应,而不是一视同仁地均匀取样。

这便为后续一系列改进方法提供了动机。

相关推荐
星球奋斗者20 分钟前
Vibe Coding:氛围编程
ai·ai发展及热点
星辰AI28 分钟前
多模态记忆:让 AI Agent 记忆各种类型的信息
人工智能·ai·语言模型
lifallen2 小时前
第一章 Agent 为什么会出现
人工智能·ai·ai编程
计算机安禾2 小时前
【算法分析与设计】第26篇:参数化算法与固定参数可解性理论
大数据·人工智能·算法·机器学习·剪枝
YueJoy.AI2 小时前
创业公司如何实现持续增长
人工智能·ai·语言模型
AI科技星2 小时前
基于**v=c(空间光速螺旋运动)唯一第一性原理**重新完整求导证明
人工智能·线性代数·算法·机器学习·架构·概率论·学习方法
莫陌尛.3 小时前
Possibilistic fuzzy c-means with partial supervision (SPFCM)
机器学习
悟空码字3 小时前
DeepSeek 大模型落地应用与场景实战指南
ai·deepseek
morning_judger3 小时前
Agent系列(二)-记忆系统的设计
开发语言·python·机器学习
测试_AI_一辰4 小时前
AI模型评测不只看准确率-CV与Agent评测指标体系梳理
人工智能·机器学习·计算机视觉