

一、RCNN:






找到概率最高的目标之后,与其他目标进行IOU交并比计算,若高于一定值,则说明这两张图片预测的是同一个目标,则把概率低的目标删掉



二、Fast RCNN



因为是直接得到特征图之后进行映射,所以不限制输入图像尺寸



Gx,Gy是调整中心点,Dx(P)是回归参数,exp就是e的多少次方






三、Faster RCNN


从提取到的feature map上,每个anchor生成2个概率,一个背景,一个目标。
256-d(一维向量)来历,指的是特征深度,这里使用ZF网络,如果VGG肯定就是512了。



感受野=(输出尺寸-1)*stride+kernel_size





再采用:




四、FPN结构(第四张图)



P2-P5如何分得anchor的计算方式

