目标检测之Fast R-CNN

目录

  • [1. Fast R-CNN](#1. Fast R-CNN)
  • [2. Roi pooling](#2. Roi pooling)
  • [3. End-to-End model](#3. End-to-End model)
  • [4. 多任务损失](#4. 多任务损失)
  • [5. 对比](#5. 对比)
  • [6. 总结](#6. 总结)

1. Fast R-CNN

改进的地方:

提出一个Rol pooling,然后整合整个模型,把CNN、SPP变换层、分类器、bbox回归几个模块一起训练

步骤

首先将整个图片输入到一个基础卷积网络,得到整张图的feature map中

将region proposal(Rol)映射到feature map中。

Rol pooling layer提取一个固定长度的特征向量,每个特征会输入到一系列全连接层,得到一个Rol特征向量(此步骤是对每一个候选区域都会进行同样的操作)

其中一个是传统softmax层进行分类,输出类别有K个类别加上"背景"类

另一个是bounding box regressor

2. Roi pooling

首先Rol pooling只是一个简单版本的SPP,目的是为了减少计算时间并且得出固定长度的向量。

Rol池层使用最大池化将任何有效的RoI区域内的特征转换成具有HxW的固定空间范围的小featuremap,其中H和W是超参数 它们独立于任何特定的Roi。

例如:VGG16 的第一个 FC 层的输入是7x7x512,其中 512 表示 feature map 的层数。在经过pooling 操作后,其特征输出维度满足 HxW。假设输出的结果与FC层要求大小不一致,对原本 maxoooling 的单位网格进行调整,使得 pooling 的每个网格大小动态调整为 h/H,w/W,最终得到的特征维度都是 HxWxD。

它要求 Pooling 后的特征为7x7x512,如果碰巧 ROI区域只有6x6大小怎么办?每个网格的大小取6/7=0.85,6/7=0.85,以长宽为例,按照这样的间隔取网格:[0,0.85,1.7,2.55,3.4,4.25,5.1,5.95],取整后,每个网格对应的起始坐标为:[0,1,2,3,3,4,5]

为什么要设计单个尺度呢?这要涉及到single scale与multi scale两者的优缺点

single scale,直接将image定为某种scale,直接输入网络来训练即可。(Fast R-CNN)multi scal,也就是要生成一个金字塔,然后对于obiect,在金字塔上找到一个大小比较接近227的投影版本,后者比前者更加准确些,没有突更多,但是第一种时间要省很多,所以实际采用的是第一个策略,因R-CNN要比SPPNet快很多也是因为这里的原因。

3. End-to-End model

从输入端到输出端直接用一个神经网络相连,整体优化目标函数。

接着我们来看为什么后面的整个网络能进行统一训练?

特征提取CNN的训练和SVM分类器的训练在时间上是先后顺序,两者的训练方式独立,因此SVM的训练Loss无法更新SPP-Layer之前的卷积层参数,去掉了SVM分类这一过程,所有特征都存储在内存中,不占用硬盘空间,形成了End-to-End模型(proposal除外,end-to-end在Faster-RCNN中得以完善)

  • 使用了softmax分类
  • Rol pooling能进行反向传播,SPP层不适合

4. 多任务损失

两个loss,分别是:

对于分类loss,是一个N+1路的softmax输出,其中的N是类别个数,1是背景,使用交叉熵损失

对于回归loss,是一个4xN路输出的regressor,也就是说对于每个类别都会训练一个单独的regressor的意思,使用平均绝对误差(MAE)损失即L1损失

5. 对比

6. 总结

相关推荐
z小猫不吃鱼5 小时前
06 ViT 为什么需要大规模数据?从归纳偏置理解 ViT 的训练特点
深度学习·计算机视觉·cnn
醒李8 小时前
盲人出行辅助系统原型
人工智能·python·目标检测
这张生成的图像能检测吗8 小时前
(论文速读)STMNet: 基于单时间掩模的自监督高光谱变化检测网络
目标检测·自监督·掩码·高光谱检测·遥感检测
AI2中文网12 小时前
App Inventor 2 向心力实验App - 探究向心力F与角速度ω、半径r、质量m的关系
前端·javascript·r语言
深度学习lover13 小时前
<数据集>yolo 白天鹅识别<目标检测>
人工智能·yolo·目标检测·数据集·白天鹅识别
生物信息与育种14 小时前
PlantBiMoE开源:轻量高效的植物基因组基础模型
人工智能·深度学习·职场和发展·数据分析·r语言
Michelle802314 小时前
24大数据 12-1 条形图
r语言
YUDAMENGNIUBI15 小时前
day27_卷积神经网络与循环神经网络入门
人工智能·rnn·cnn
AI浩17 小时前
UAV-DETR:面向反无人机目标检测的 DETR 框架
人工智能·目标检测·无人机
Sylvia-girl18 小时前
R语言概述
开发语言·r语言