R-FCN: Object Detection via Region-based Fully Convolutional Networks(2016.6)

文章目录

原文链接
源代码

Abstract

我们提出了基于区域的全卷积网络,用于准确高效的目标检测。与之前基于区域的检测器(如Fast/Faster R-CNN6,18)相比,我们的基于区域的检测器是完全卷积 的,几乎所有的计算都是在整个图像上共享的。为了实现这一目标,我们提出了位置敏感分数映射*,以 解决图像分类中的平移不变性和目标检测中的平移方差之间的困境**。因此,我们的方法可以自然地采用全卷积图像分类器骨架,例如最新的残差网络(ResNets)9,用于对象检测。我们在PASCAL VOC数据集上展示了与101层ResNet的竞争结果(例如,2007年集上的83.6% mAP)。同时,我们的结果是在每幅图像170ms的测试时间速度下实现的,比faster R-CNN快2.5-20倍

Introduction

当前最先进目标检测存在的问题

用于目标检测的流行的深度网络家族(Fast R-CNN、Faster R-CNN、SPPnet)可以通过感兴趣区域**(RoI)池化层分为两个子网络**:
(i)独立于roi的共享的"完全卷积"子网,以及(ii)不共享计算的roi智能子网
最先进的图像分类网络,如ResNets (ResNets)9和GoogLeNets24,26,在设计上是完全卷积的

然而这种解决方案的检测精度相当低 ,与网络的优越分类精度不匹配

为了解决这个问题,在ResNet 论文9中,Faster R-CNN检测器18的RoI池层被不自然地插入到两组卷积层之间------这创建了一个更深的RoI智能子网,提高了准确性,但代价是由于未共享每个RoI的计算而降低了速度

我们认为,上述非自然设计是由于增加图像分类的平移不变性与关于目标检测的平移方差的两难境地造成的

针对上述问题,我们提出...

在本文中,我们开发了一种称为基于区域的全卷积网络 (R-FCN )的目标检测框架,我们的网络由共享的、全卷积的架构组成,就像FCN一样。为了将平移方差整合到FCN中,我们使用一组专门的卷积层作为FCN输出,构建了一组位置敏感的分数映射,整个体系结构是端到端学习的

Our approach

Overview

区域生成网络(RPN )18提出候选RoI,然后将其应用于得分图。所有可学习的权重层都是卷积 的,并在整个图像上计算,每个RoI的计算成本可以忽略不计。最后一个卷积层为每个类别生成k^2个位置敏感分数映射库 ,因此具有具有C个对象类别 (+1为背景)会有k² (C +1) - 通道 个输出层。k²个分数映射对应于描述相对位置的k × k空间网格。例如,使用k×k = 3×3, 9个分数映射编码{左上、中上、右上、...,右下}的对象类别。R-FCN以位置敏感的RoI池化层结束 ,这一层聚集了最后一个卷积层的输出,并为每个RoI生成分数,我们的位置敏感RoI层进行了选择性池化 ,每个k × k箱只聚合了k × k个分数图库中的一个分数图的响应,通过端到端训练,这个RoI层引导最后一个卷积层学习专门的位置敏感分数映射

R-FCN用于目标检测的关键思想(上图):在这个例子中,有k × k = 3 × 3个由全卷积网络生成的位置敏感分数图。对于RoI中的每一个k × k个箱,池化只在k²个地图中的一个上执行(用不同的颜色标记)

Backbone architecture

本文中R-FCN的化身基于ResNet-101 9,但其他网络10,23也适用。ResNet-101有100个卷积层,然后是全局平均池化和1000类fc层。我们去掉了平均池化层和fc层只使用卷积层来计算特征映射 。我们使用9作者发布的ResNet-101,在ImageNet20上进行预训练。ResNet-101中的最后一个卷积块是2048-d,我们附加了一个随机初始化的1024-d 1 × 1卷积层来降维(准确地说,这将表1中的深度增加了1)。然后我们应用k²(C +1)通道卷积层来生成分数图

Position-sensitive score maps & Position-sensitive RoI pooling

为了显式地将位置信息编码到每个RoI中,我们通过规则网格将每个RoI矩形划分为k × k个箱,对于大小为w×h的RoI矩形,bin的大小为≈w/k

× h/k,在我们的方法中,最后一个卷积层被构造为每个类别生成k²个分数图

r c (i,j)是c -类在(i,j) - bin中的集合响应,z i,j,c是k²(c + 1)个分数图中的一个分数图,(x 0,y 0)表示RoI的左上角,n是bin中的像素数,Θ表示网络的所有可学习参数

R-CNN b7已经证明了在深度网络中使用区域提议的有效性27,28。R-CNN对裁剪和扭曲区域上的卷积网络进行评估,计算不在区域之间共享(表1)。SPPnet8、Fast R-CNN6和Faster R-CNN18是"半卷积"的 ,其中一个卷积子网络对整个图像执行共享计算,另一个子网络对单个区域进行评估。有一些物体检测器可以被认为是"完全卷积"模型。OverFeat21通过在共享卷积特征映射上滑动多尺度窗口来检测对象

Experiments







Conclusion

我们提出了基于区域的全卷积网络 ,这是一种简单、准确、高效的目标检测框架。我们的系统自然采用了最先进的图像分类主干 ,如ResNets,它在设计上是完全卷积的。我们的方法达到了与Faster R-CNN相媲美的精度,但在训练和推理过程中都要快得多

相关推荐
米小虾44 分钟前
Loop Engineering —— 循环的设计与自主执行
人工智能·agent
米小虾1 小时前
Harness Engineering —— 系统的安全护栏
人工智能·agent
火山引擎开发者社区1 小时前
积分当钱花,火山引擎开发者激励计划首月消费双倍回馈
人工智能
aqi002 小时前
15天学会AI应用开发(十)把文本嵌入模型换成国产模型
人工智能·python·ai编程
MobotStone2 小时前
为什么在AI时代,“好奇心”成了最值钱的能力?
人工智能
武子康3 小时前
调查研究-200 llama.cpp b9754:一次很小但很关键的 Agent 工具调用修复
人工智能·agent·llama
Ralph_Salar3 小时前
从0到1搭建AI智能支付风控助手Stage1-RAG知识库升级 — 元数据让检索更精准
人工智能
武子康3 小时前
调查研究-199 MCP Zero-Touch OAuth:为什么它是 MCP 进入企业生产的关键门槛?
人工智能·agent·mcp