目标检测中的ROI Pooling

目标检测中的ROI Pooling

ROI Pooling的产生背景

ROI Pooling是在Faster R-CNN中被提出,主要是解决基于区域提议的目标检测方法存在的两个问题:

  • 输入不统一: 区域提议网络(RPN)或选择性搜索(Selective Search)会产生成千上百个候选区域(ROI),这些候选区域的大小通常都是不一致的
  • 头部网络需要固定输入: 网络最终的分类头以及回归头需要输入必须是固定尺寸

如何将这些大小不一的候选区域转换为统一的输入尺寸输入到头部网络中,这就是ROI Pooling要解决的问题

ROI Pooling的工作原理

ROI Pooling操作可以分解为两个简单的步骤,假设目标输出尺寸需要统一为H×W

步骤一:映射与划分

  • 映射: 将RPN网络的候选区域坐标(x, y, w, h)映射到检测网络的特征图上,特征图假设经过了S倍下采样 ,则候选区域坐标需除以S获取对应于特征图上的坐标
  • 划分: 将映射后的特征图区域在逻辑上划分为H×W个大小近似的子窗口
    • 每个子窗口的高度为h / H, 宽度为w / W
    • 由于h / H、w / W很可能不是整数,因此需要对子窗口的边界进行取整,这样会导致子窗口的大小会略有不同

步骤二:最大池化

  • 对划分后的每一个子窗口执行最大池化操作,即取该窗口内最大的值作为输出,每一个通道单独执行最大池化
  • 经过对所有H × W个子窗口进行最大池化后,会得到一个H × W × C 的特征图,其中C表示通道数

具体的计算示例

假设:

  • 输入ROI的的大小为6×8
  • 目标输出大小为3×3

划分过程

  1. 划分网格:
    • 高度方向:6 / 3 = 2,将高度平分为3份,每份两个像素
    • 宽度方向:8 / 3 ~= 2.67,不是整数!需要处理小数问题:
      • 通常做法是:三个子窗口的宽度分别设置为[3, 3, 2],即第一个和第二个子窗口的宽度为3个像素,第三个子窗口的宽度为2个像素
  2. 最大池化:
    • 对这9个子窗口中的每一个,计算其覆盖区域内的最大值。
    • 例如,对于左上角的2x3子窗口,我们取这6个值中的最大值,作为输出特征图(0,0)位置的值。
    • 依次处理所有子窗口,最终得到一个3x3的输出特征图。

ROI Pooling的局限性

RoI Pooling 的核心问题在于两次量化操作:

  • 第一次量化: 将原始图像上的浮点数 RoI 坐标映射到特征图时,需要除以步长 S 并取整。这会导致 RoI 在特征图上的位置出现微小的偏差。

  • 第二次量化: 将特征图上的 RoI 区域划分成 H x W 个子窗口时,子窗口的边界需要取整。这会导致子窗口的大小和位置不精确。

这些取整操作(量化)虽然得到了固定尺寸的输出,但也引入了不精确的空间定位信息。对于分类任务来说,这种微小的偏差可能影响不大,但对于需要像素级精度的任务(如实例分割 Mask R-CNN)或精细的边界框回归,这种不精确性会带来显著的负面影响。

相关推荐
minhuan2 分钟前
构建高可用大模型应用架构:大模型服务进程保活 + 全自动故障自愈实践.163
人工智能·大模型应用·大模型服务进程保活·全自动故障自愈·大模型运维监控
FrontAI5 分钟前
深入浅出 LangGraph —— 第11章:子图:构建模块化Agent
人工智能·langchain·ai agent·langgraph
njsgcs8 分钟前
我有待做任务清单和不良操作图片集,如何设计ai agent协助我完成工作
大数据·人工智能
AI科技星10 分钟前
《全域数学》第三卷:代数原本 · 全书详述【乖乖数学】
开发语言·人工智能·机器学习·数学建模
AI科技星15 分钟前
《全域数学》第一部 数术本源 第三卷 代数原本第14篇 附录二 猜想证明【乖乖数学】
人工智能·算法·数学建模·数据挖掘·量子计算
XD74297163615 分钟前
科技早报|2026年5月2日:AI 编程工具开始按用量收费
人工智能·科技·ai编程·github copilot·科技早报
liangdabiao16 分钟前
乐高摩托车深度报告-致敬张雪夺冠 -基于llm-wiki技术自动化写文章的效果
运维·人工智能·自动化
KC27018 分钟前
Prompt 注入攻击的 5 种姿势和防御指南
人工智能
不懒不懒20 分钟前
【从零入门本地大模型:Ollama 安装部署 + Qwen2.5 实现零样本情感分类】
人工智能·分类·数据挖掘·大模型·ollama
徐健峰25 分钟前
GPT-image-2 热门玩法实战(二):AI 面相分析 & 个人色彩诊断 — 上传自拍秒出专业报告
人工智能·gpt