目标检测中的ROI Pooling

追光的蜗牛丿2025-10-14 6:04

目标检测中的ROI Pooling

ROI Pooling的产生背景

ROI Pooling是在Faster R-CNN中被提出，主要是解决基于区域提议的目标检测方法存在的两个问题：

输入不统一： 区域提议网络（RPN）或选择性搜索（Selective Search）会产生成千上百个候选区域（ROI），这些候选区域的大小通常都是不一致的
头部网络需要固定输入： 网络最终的分类头以及回归头需要输入必须是固定尺寸

如何将这些大小不一的候选区域转换为统一的输入尺寸输入到头部网络中，这就是ROI Pooling要解决的问题

ROI Pooling的工作原理

ROI Pooling操作可以分解为两个简单的步骤，假设目标输出尺寸需要统一为H×W。

步骤一：映射与划分

映射： 将RPN网络的候选区域坐标（x, y, w, h）映射到检测网络的特征图上，特征图假设经过了S倍下采样，则候选区域坐标需除以S获取对应于特征图上的坐标
划分： 将映射后的特征图区域在逻辑上划分为H×W个大小近似的子窗口
- 每个子窗口的高度为h / H, 宽度为w / W
- 由于h / H、w / W很可能不是整数，因此需要对子窗口的边界进行取整，这样会导致子窗口的大小会略有不同

步骤二：最大池化

对划分后的每一个子窗口执行最大池化操作，即取该窗口内最大的值作为输出，每一个通道单独执行最大池化
经过对所有H × W个子窗口进行最大池化后，会得到一个H × W × C 的特征图，其中C表示通道数

具体的计算示例

假设：

输入ROI的的大小为6×8
目标输出大小为3×3

划分过程

划分网格：
- 高度方向：6 / 3 = 2，将高度平分为3份，每份两个像素
- 宽度方向：8 / 3 ~= 2.67，不是整数！需要处理小数问题：
  - 通常做法是：三个子窗口的宽度分别设置为[3, 3, 2]，即第一个和第二个子窗口的宽度为3个像素，第三个子窗口的宽度为2个像素
最大池化：
- 对这9个子窗口中的每一个，计算其覆盖区域内的最大值。
- 例如，对于左上角的2x3子窗口，我们取这6个值中的最大值，作为输出特征图(0,0)位置的值。
- 依次处理所有子窗口，最终得到一个3x3的输出特征图。

ROI Pooling的局限性

RoI Pooling 的核心问题在于两次量化操作：

第一次量化：将原始图像上的浮点数 RoI 坐标映射到特征图时，需要除以步长 S 并取整。这会导致 RoI 在特征图上的位置出现微小的偏差。
第二次量化：将特征图上的 RoI 区域划分成 H x W 个子窗口时，子窗口的边界需要取整。这会导致子窗口的大小和位置不精确。

这些取整操作（量化）虽然得到了固定尺寸的输出，但也引入了不精确的空间定位信息。对于分类任务来说，这种微小的偏差可能影响不大，但对于需要像素级精度的任务（如实例分割 Mask R-CNN）或精细的边界框回归，这种不精确性会带来显著的负面影响。

上一篇：Fiddler抓包工具使用教程，代理设置与调试方法实战解析（含配置技巧）

下一篇：aws ec服务器统一为国内时间。ec 设置上海

热门推荐

01GitHub 镜像站点 02Labelme从安装到标注：零基础完整指南 03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04Linux下V2Ray安装配置指南 05jdk21下载、安装（Windows、Linux、macOS）06【踩坑笔记】50系显卡适配的 PyTorch 安装 072025-04-03 Latex学习1——本地配置Latex + VScode环境 08Claude Code 2.1.2 升级报错？别折腾了，一行命令搞定 09Opencode CLI 安装成功,但是启动失败 10UV安装并设置国内源