目录
- [1. Fast R-CNN](#1. Fast R-CNN)
- [2. Roi pooling](#2. Roi pooling)
- [3. End-to-End model](#3. End-to-End model)
- [4. 多任务损失](#4. 多任务损失)
- [5. 对比](#5. 对比)
- [6. 总结](#6. 总结)
1. Fast R-CNN
改进的地方:
提出一个Rol pooling,然后整合整个模型,把CNN、SPP变换层、分类器、bbox回归几个模块一起训练

步骤
首先将整个图片输入到一个基础卷积网络,得到整张图的feature map中
将region proposal(Rol)映射到feature map中。
Rol pooling layer提取一个固定长度的特征向量,每个特征会输入到一系列全连接层,得到一个Rol特征向量(此步骤是对每一个候选区域都会进行同样的操作)
其中一个是传统softmax层进行分类,输出类别有K个类别加上"背景"类
另一个是bounding box regressor
2. Roi pooling
首先Rol pooling只是一个简单版本的SPP,目的是为了减少计算时间并且得出固定长度的向量。

Rol池层使用最大池化将任何有效的RoI区域内的特征转换成具有HxW的固定空间范围的小featuremap,其中H和W是超参数 它们独立于任何特定的Roi。
例如:VGG16 的第一个 FC 层的输入是7x7x512,其中 512 表示 feature map 的层数。在经过pooling 操作后,其特征输出维度满足 HxW。假设输出的结果与FC层要求大小不一致,对原本 maxoooling 的单位网格进行调整,使得 pooling 的每个网格大小动态调整为 h/H,w/W,最终得到的特征维度都是 HxWxD。
它要求 Pooling 后的特征为7x7x512,如果碰巧 ROI区域只有6x6大小怎么办?每个网格的大小取6/7=0.85,6/7=0.85,以长宽为例,按照这样的间隔取网格:[0,0.85,1.7,2.55,3.4,4.25,5.1,5.95],取整后,每个网格对应的起始坐标为:[0,1,2,3,3,4,5]
为什么要设计单个尺度呢?这要涉及到single scale与multi scale两者的优缺点
single scale,直接将image定为某种scale,直接输入网络来训练即可。(Fast R-CNN)multi scal,也就是要生成一个金字塔,然后对于obiect,在金字塔上找到一个大小比较接近227的投影版本,后者比前者更加准确些,没有突更多,但是第一种时间要省很多,所以实际采用的是第一个策略,因R-CNN要比SPPNet快很多也是因为这里的原因。
3. End-to-End model
从输入端到输出端直接用一个神经网络相连,整体优化目标函数。
接着我们来看为什么后面的整个网络能进行统一训练?
特征提取CNN的训练和SVM分类器的训练在时间上是先后顺序,两者的训练方式独立,因此SVM的训练Loss无法更新SPP-Layer之前的卷积层参数,去掉了SVM分类这一过程,所有特征都存储在内存中,不占用硬盘空间,形成了End-to-End模型(proposal除外,end-to-end在Faster-RCNN中得以完善)
- 使用了softmax分类
- Rol pooling能进行反向传播,SPP层不适合
4. 多任务损失
两个loss,分别是:
对于分类loss,是一个N+1路的softmax输出,其中的N是类别个数,1是背景,使用交叉熵损失
对于回归loss,是一个4xN路输出的regressor,也就是说对于每个类别都会训练一个单独的regressor的意思,使用平均绝对误差(MAE)损失即L1损失

5. 对比

6. 总结
