目标检测之Fast R-CNN

1. Fast R-CNN

改进的地方:

提出一个Rol pooling，然后整合整个模型，把CNN、SPP变换层、分类器、bbox回归几个模块一起训练

步骤

首先将整个图片输入到一个基础卷积网络，得到整张图的feature map中

将region proposal(Rol)映射到feature map中。

Rol pooling layer提取一个固定长度的特征向量，每个特征会输入到一系列全连接层，得到一个Rol特征向量(此步骤是对每一个候选区域都会进行同样的操作)

其中一个是传统softmax层进行分类，输出类别有K个类别加上"背景"类

另一个是bounding box regressor

2. Roi pooling

首先Rol pooling只是一个简单版本的SPP，目的是为了减少计算时间并且得出固定长度的向量。

Rol池层使用最大池化将任何有效的RoI区域内的特征转换成具有HxW的固定空间范围的小featuremap，其中H和W是超参数它们独立于任何特定的Roi。

例如:VGG16 的第一个 FC 层的输入是7x7x512，其中 512 表示 feature map 的层数。在经过pooling 操作后，其特征输出维度满足 HxW。假设输出的结果与FC层要求大小不一致，对原本 maxoooling 的单位网格进行调整，使得 pooling 的每个网格大小动态调整为 h/H,w/W,最终得到的特征维度都是 HxWxD。

它要求 Pooling 后的特征为7x7x512，如果碰巧 ROI区域只有6x6大小怎么办?每个网格的大小取6/7=0.85,6/7=0.85，以长宽为例，按照这样的间隔取网格: $0,0.85,1.7,2.55,3.4,4.25,5.1,5.95$ ，取整后，每个网格对应的起始坐标为: $0,1,2,3,3,4,5$

为什么要设计单个尺度呢?这要涉及到single scale与multi scale两者的优缺点

single scale，直接将image定为某种scale，直接输入网络来训练即可。(Fast R-CNN)multi scal，也就是要生成一个金字塔，然后对于obiect，在金字塔上找到一个大小比较接近227的投影版本，后者比前者更加准确些，没有突更多，但是第一种时间要省很多，所以实际采用的是第一个策略，因R-CNN要比SPPNet快很多也是因为这里的原因。

3. End-to-End model

从输入端到输出端直接用一个神经网络相连，整体优化目标函数。

接着我们来看为什么后面的整个网络能进行统一训练?

特征提取CNN的训练和SVM分类器的训练在时间上是先后顺序，两者的训练方式独立，因此SVM的训练Loss无法更新SPP-Layer之前的卷积层参数，去掉了SVM分类这一过程，所有特征都存储在内存中，不占用硬盘空间，形成了End-to-End模型(proposal除外，end-to-end在Faster-RCNN中得以完善)

使用了softmax分类
Rol pooling能进行反向传播，SPP层不适合

4. 多任务损失

两个loss，分别是:

对于分类loss，是一个N+1路的softmax输出，其中的N是类别个数，1是背景，使用交叉熵损失

对于回归loss，是一个4xN路输出的regressor，也就是说对于每个类别都会训练一个单独的regressor的意思，使用平均绝对误差(MAE)损失即L1损失

目标检测之Fast R-CNN

目录

1. Fast R-CNN

2. Roi pooling

3. End-to-End model

4. 多任务损失

5. 对比

6. 总结