44 物体检测算法：R-CNN，SSD，YOLO【李沐动手学深度学习v2课程笔记】

[1. 区域卷积神经网络(region-based CNN or regions with CNN features)](#1. 区域卷积神经网络(region-based CNN or regions with CNN features))

[1.1 R-CNN编辑](#1.1 R-CNN编辑)

[1.2 Fast R-CNN](#1.2 Fast R-CNN)

[1.3 Faster R-CNN](#1.3 Faster R-CNN)

[1.4 Mask R-CNN](#1.4 Mask R-CNN)

[1.5 模型精度比较](#1.5 模型精度比较)

[1.6 总结](#1.6 总结)

[2. 单发多框检测（SSD）](#2. 单发多框检测（SSD）)

[3. YOLO](#3. YOLO)

[4. Center Net](#4. Center Net)

目标检测算法主要分为两个类型
（1）two-stage方法， 如R-CNN系算法（region-based CNN），其主要思路是先通过启发式方法（selective search）或者CNN网络（RPN)产生一系列稀疏的候选框，然后对这些候选框进行分类与回归，two-stage方法的优势是准确度高
**（2）one-stage方法，**如Yolo和SSD，其主要思路是均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用CNN提取特征后直接进行分类与回归，整个过程只需要一步，所以其优势是速度快，但是均匀的密集采样的一个重要缺点是训练比较困难，这主要是因为正样本与负样本（背景）极其不均衡，导致模型准确度稍低

1. 区域卷积神经网络(region-based CNN or regions with CNN features)

1.1 R-CNN

首先从输入图像中选取若干个提议区域（锚框是选取方式的一种），并标注它们的类别和边界框（如偏移量）。然后用卷积神经网络来对每个提议区域（锚框）进行前向传播以抽取特征。最后用每个提议区域的特征来预测类别和边界框。

R-CNN 模型的四个步骤：

对输入图像使用选择性搜索 来选取多个高质量的提议区域。这些提议区域通常是在多个尺度 下选取的，并具有不同的形状和大小 ；每个提议区域都将被标注类别和真实边框
选择一个预训练的卷积神经网络，并将其在输出层之前截断。将每个提议区域变形为网络需要的输入尺寸，并通过前向传播输出抽取的提议区域特征
将每个提议区域的特征连同其标注的类别作为一个样本。训练多个支持向量机 对目标分类，其中每个支持向量机用来判断样本是否属于某一个类别
将每个提议区域的特征连同其标注的边界框作为一个样本，训练线性回归模型 来预测真实边界框

上图中对 3 * 3 的黑色方框中的区域进行 2 * 2 的兴趣区域池化，由于 3 * 3 的区域不能均匀地进行切割成 4 块，所以会进行取整（最终将其分割成为 2 * 2、1 * 2、2 * 1、1 * 1 四块），在做池化操作的时候分别对四块中每一块取最大值，然后分别填入 2 * 2 的矩阵中相应的位