深度学习进阶(十) RoI Align

上一篇中,我们已经明确指出:

RoI Pooling 的核心问题并不在于 Pooling 本身,而在于"取整导致的量化误差"。

那么,一个非常直接的思路就是:

既然误差来自"取整",那就不要取整。

这正是 RoI Align 的出发点。

1. RoI Align 的提出和思想

RoI Align 来源于 17 年提出的经典目标检测与实例分割模型: Mask R-CNN.

在这篇论文中,作者明确指出:RoI Pooling 的量化误差会显著影响像素级任务。

因此,他们提出了一种针对性的改进:

不改变整体框架,只修正对齐方式。

RoI Align 核心思想也并不复杂,总结来说就是:

取消的是 RoI 边界映射和 bin 分割中的取整,保留所有浮点数表示的边界,用双线性插值来获取采样点。

下面来详细展开:

2. RoI Align 的具体改进

2.1 候选框映射

在这一步的改进较为简单,就是直接省去取整步骤

2.2 划分子区域

这一步和原本的 RoI Pooling 没有区别,只是候选框并没有取整。

我们直接用图中的例子来演示完整逻辑,设 \(k \times k = 2 \times 2\) ,已知 RoI 为:

\[(x_1, y_1, x_2, y_2) = (0.8, 0, 2.4, 4.5) \]

首先计算 RoI 在特征图上的宽和高:

\[w = x_2 - x_1 = 2.4 - 0.8 = 1.6,h = y_2 - y_1 = 4.5 \]

因为要划分为 \(2 \times 2\),计算得到每个 bin 的尺寸为:

\[w_{bin} = \frac{w}{2} = \frac{1.6}{2} = 0.8,h_{bin} = \frac{h}{2} = \frac{4.5}{2} = 2.25 \]

最终,四个子区域划分如下:

位置 x 范围 y 范围
左上 (0,0) \([0.8, 1.6]\) \([0,2.25]\)
右上 (0,1) \([1.6,2.4]\) \([0,2.25]\)
左下 (1,0) \([0.8, 1.6]\) \([2.25,4.5]\)
右下 (1,1) \([1.6,2.4]\) \([2.25,4.5]\)

现在,整个 RoI 被均匀、连续地切分,没有任何量化误差。

但新的问题是:

连续划分的 bin 并不和特征图网格完全贴合,要如何取样进行下一步池化?

这便是 RoI Align 的核心内容,关键点只有一句话:

既然采样点不再落在整数网格上,那就必须"估算"这个位置的特征值。

2.3 线性插值和双线性插值

插值是使用离散点估计连续值 的常见方法,我们先简单介绍一下。

假设在一条数轴上,我们已知两个点的值:

\[f(1)=1,f(2)=2 \]

现在我们想求一个中间位置 \(x=1.3\) 的值,该怎么办?

直觉上,这个点更接近 1,因此它的值应该更偏向 \(f(1)\)。

所以,这里线性插值的公式就是:

\[f(x) = (1 - \lambda) \cdot f(1) + \lambda \cdot f(2) \]

其中:

\[\lambda = x - 1 = 0.3 \]

最终得到估计值:

\[f(1.3) = 0.7 \cdot f(1) + 0.3 \cdot f(2)= 1.3 \]

这便是一维线性插值的逻辑,由此我们推广到二维的双线性插值:

特征图是一个二维离散网格 ,而我们的采样点 \((x, y)\) 通常是浮点数,比如:

\[(x, y) = (1.3, 2.7) \]

就像我们现在遇到的,这个点不会正好落在某个像素中心,而是落在一个"格子内部"。

其周围最近的四个整数点是(以视觉任务中惯例的左上角为原点):

  1. 左上:\((x_1, y_1) = (1, 2)\)
  2. 右上:\((x_2, y_1) = (2, 2)\)
  3. 左下:\((x_1, y_2) = (1, 3)\)
  4. 右下:\((x_2, y_2) = (2, 3)\)

双线性插值本质是:先横向插值,再纵向插值(或者反过来也一样)。

于是,我们定义:

\[dx = x - x_1,\quad dy = y - y_1 \]

在本例中不难得到:

\[dx = 0.3,\quad dy = 0.7 \]

最终结果是四个点的加权和:

\[f(x, y) = (1 - dx)(1 - dy) \cdot f(x_1, y_1) + dx(1 - dy) \cdot f(x_2, y_1) + (1 - dx)dy \cdot f(x_1, y_2)+dxdy \cdot f(x_2, y_2) \]

总结双线性插值的逻辑如下:

一个采样点的值,是由它周围四个网格点"按距离加权平均"得到的。越近权重越大,越远权重越小,四个权重加起来刚好为 1 。

到这里,就可以明白 RoI Align 的采样思路了。

2.4 采样每个子区域

现在,我们已经有了划分好的连续子区域,这些 bin 不像取整划分一样直接固定好了采样点。因此问题变成了:

一个 bin 内,到怎么取点?取多少个点?

这就引出了新的超参数:采样率(sampling ratio),或者采样密度

具体展开,对于每个 bin,在两个方向分别定义采样率:

\[r_x,r_y \]

我们可以手动指定两个方向的采样率,在原论文的设计中,每个 bin 内固定为 4 个规则采样点。但现代更常见的是自适应采样:

\[r_x = \lceil w_{bin} \rceil,\quad r_y = \lceil h_{bin} \rceil \]

得到采样率后,我们就可以以此划分该方向的步长

\[step = \frac{length}{r} \]

最终,我们以等分加中心偏移的形式得到采样点的位置:

\[x_i = x_{start} + (i + 0.5)\cdot step \]

\[y_i = y_{start} + (i + 0.5)\cdot step \]

这种设计是为了让点"取中心",不然不同 bin 的采样点就会在边界处发生重合,在偶数采样率时还会发生不对称取点的情况。 在下面的例子里就可以直观感受到这点。

先总结采样逻辑如下:

直接对 bin 的尺寸向上取整,作为该方向的采样率。以此在 x 和 y 方向分别均匀划分,形成规则的 \(r_x \times r_y\) 个采样点。

我们用之前得到的左上角 bin 作为例子:

位置 x 范围 y 范围
左上 \([0.8, 1.6]\) \([0, 2.25]\)

按照自适应策略:

\[r_x = \lceil w_{bin} \rceil = \lceil 0.8 \rceil = 1 ,r_y = \lceil h_{bin} \rceil = \lceil 2.25 \rceil = 3 \]

也就是说,这个 bin 在 x 方向只取 1 个点,在 y 方向取 3 个点。

继续计算步长:

\[step_x = \frac{0.8}{1} = 0.8,step_y = \frac{2.25}{3} = 0.75 \]

代入公式得到最终结果:

\[x_0 = 0.8 + (0 + 0.5)\cdot 0.8 = 1.2 \]

\[y_0 = 0 + (0 + 0.5)\cdot 0.75 = 0.375 \]

\[y_1 = 0 + (1 + 0.5)\cdot 0.75 = 1.125 \]

\[y_2 = 0 + (2 + 0.5)\cdot 0.75 = 1.875 \]

因此,这个 bin 内的采样点就是:

点编号 坐标
1 (1.2, 0.375)
2 (1.2, 1.125)
3 (1.2, 1.875)

2.5 最终输出

到这里,我们就只剩下最后一步了:对所有采样点进行双线性插值得到特征值,池化聚合输出。

这就是 RoI Align 的完整逻辑,我们以此消除了"坐标量化"这个人为错误来源。

要注意的是:不能说 RoI Align 消除了量化误差。

因为仍然存在模型本身表达能力限制、插值近似误差等"不可避免但可控"的误差。

3.RoI Align 的改进方向

现在,我们已经解决了一个核心问题:通过去除取整操作并引入双线性插值,使 RoI 从离散坐标空间回到了连续坐标空间,从而显著缓解了量化误差带来的不稳定性。

但实际上,RoI Align 仍然存在一个隐含假设:bin 内部的空间结构是相对平滑且均匀的。

这样,每个 bin 内的特征才可以通过"均匀采样 + 简单平均"来充分表示。

可是,这一假设并不总是成立。物体边界、纹理变化等内容往往在局部区域内呈现明显的不均匀性。

此时,"固定采样数量 + 均匀分布"的策略仍然可能带来信息损失,尤其是在目标尺度变化较大或结构复杂的情况下。

因此,一个新的想法就出现了:

是否可以让 RoI 内部的采样过程,具备一定的结构感知能力?

例如,在同一个 bin 中,如果某一部分区域显著包含目标信息,而另一部分主要为背景,那么理想情况下,采样分布应当能够对这种差异进行响应,而不是一视同仁地均匀取样。

这便为后续一系列改进方法提供了动机。

相关推荐
阿杰学AI2 小时前
AI核心知识131—大语言模型之 自主智能体(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·agent·智能体·自主智能体
AIwenIPgeolocation2 小时前
豫见OpenClaw·人工智能技术交流沙龙成功举办 埃文科技受邀主讲共探数智新路径
ai
爱凤的小光2 小时前
OpenCV4机器学习算法原理与代码---个人学习篇
opencv·机器学习
刘 大 望2 小时前
RAG相关技术介绍及Spring AI中使用--第三期
java·人工智能·后端·spring·机器学习·ai·aigc
Mr数据杨2 小时前
成人收入预测建模与信用评估应用
大数据·人工智能·机器学习·数据分析·kaggle
大江东去浪淘尽千古风流人物2 小时前
【cuVSLAM】项目解析:一套偏工程实战的 GPU 紧耦合视觉惯性 SLAM
数据库·人工智能·python·机器学习·oracle
阿杰学AI2 小时前
AI核心知识132—大语言模型之 AI for Science(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·ai for science·ai4s
后端AI实验室3 小时前
我用AI把一个外包需求从30天压到5天交付,然后客户说:下次还找你
java·ai
GJGCY3 小时前
2026企业RPA+AI智能体落地技术全景:四阶段演进与关键架构决策
人工智能·安全·ai·rpa·智能体