【目标检测经典算法】R-CNN、Fast R-CNN和Faster R-CNN详解系列三：Faster R-CNN图文详解

【目标检测经典算法】R-CNN、Fast R-CNN和Faster R-CNN详解系列二：Fast R-CNN图文详解

概念预设

感受野

感受野(Receptive Field) 是指特征图上的某个点能看到的输入图像的区域。

神经元感受野的值越大表示其能接触到的原始图像范围就越大，也意味着它可能蕴含更为全局，语义层次更高的特征；
值越小则表示其所包含的特征越趋向局部和细节。

在论文中，ZF网络特征图中 3 ∗ 3 3*3 3∗3的滑动窗口在原图中的感受野为 171 ∗ 171 171*171 171∗171

RPN

框架

Faster R-CNN不再需要SS算法进行候选框的生成，而是使用RPN进行锚框的生成和筛选，可以和分类回归任务放在一起进行实现，是一个一阶段任务。

anchor box

什么是anchors

在图像上预设好的不同大小，不同长宽比的参照框。 论文中设定每个区域可以生成k个anchor box。

anchors的大小和比例

由于每个目标的大小不同，所以会预设的anchors的大小和长宽比也不同。

在论文中预设了3种不同的面积和3种不同的比例大小的anchors：

128 ∗ 128 , 256 ∗ 256 , 512 ∗ 512 128*128, 256*256, 512*512 128∗128,256∗256,512∗512
1 : 1 , 1 : 2 , 2 : 1 1:1, 1:2, 2:1 1:1,1:2,2:1

因此一共会有9个 anchors生成。

步骤

1. 滑动窗口

将图片输入网络得到相应的特征图后，将有一个3*3的滑动窗口 在特征图上进行滑动，每滑动到一个新的位置，就生成一个一维向量 （维度由所使用的backbone决定），在一维向量的基础上连接两个全连接层（cls layer和reg layer），获得2k个分类参数和4k个位置参数。

2k: 正样本概率和负样本概率
4k：4个需要回归的位置参数， d x d y d_x d_y dxdy：anchors的中心坐标的偏移量， d w d h d_w d_h dwdh：宽和高的调整参数