目标检测之Fast R-CNN

目录

  • [1. Fast R-CNN](#1. Fast R-CNN)
  • [2. Roi pooling](#2. Roi pooling)
  • [3. End-to-End model](#3. End-to-End model)
  • [4. 多任务损失](#4. 多任务损失)
  • [5. 对比](#5. 对比)
  • [6. 总结](#6. 总结)

1. Fast R-CNN

改进的地方:

提出一个Rol pooling,然后整合整个模型,把CNN、SPP变换层、分类器、bbox回归几个模块一起训练

步骤

首先将整个图片输入到一个基础卷积网络,得到整张图的feature map中

将region proposal(Rol)映射到feature map中。

Rol pooling layer提取一个固定长度的特征向量,每个特征会输入到一系列全连接层,得到一个Rol特征向量(此步骤是对每一个候选区域都会进行同样的操作)

其中一个是传统softmax层进行分类,输出类别有K个类别加上"背景"类

另一个是bounding box regressor

2. Roi pooling

首先Rol pooling只是一个简单版本的SPP,目的是为了减少计算时间并且得出固定长度的向量。

Rol池层使用最大池化将任何有效的RoI区域内的特征转换成具有HxW的固定空间范围的小featuremap,其中H和W是超参数 它们独立于任何特定的Roi。

例如:VGG16 的第一个 FC 层的输入是7x7x512,其中 512 表示 feature map 的层数。在经过pooling 操作后,其特征输出维度满足 HxW。假设输出的结果与FC层要求大小不一致,对原本 maxoooling 的单位网格进行调整,使得 pooling 的每个网格大小动态调整为 h/H,w/W,最终得到的特征维度都是 HxWxD。

它要求 Pooling 后的特征为7x7x512,如果碰巧 ROI区域只有6x6大小怎么办?每个网格的大小取6/7=0.85,6/7=0.85,以长宽为例,按照这样的间隔取网格:[0,0.85,1.7,2.55,3.4,4.25,5.1,5.95],取整后,每个网格对应的起始坐标为:[0,1,2,3,3,4,5]

为什么要设计单个尺度呢?这要涉及到single scale与multi scale两者的优缺点

single scale,直接将image定为某种scale,直接输入网络来训练即可。(Fast R-CNN)multi scal,也就是要生成一个金字塔,然后对于obiect,在金字塔上找到一个大小比较接近227的投影版本,后者比前者更加准确些,没有突更多,但是第一种时间要省很多,所以实际采用的是第一个策略,因R-CNN要比SPPNet快很多也是因为这里的原因。

3. End-to-End model

从输入端到输出端直接用一个神经网络相连,整体优化目标函数。

接着我们来看为什么后面的整个网络能进行统一训练?

特征提取CNN的训练和SVM分类器的训练在时间上是先后顺序,两者的训练方式独立,因此SVM的训练Loss无法更新SPP-Layer之前的卷积层参数,去掉了SVM分类这一过程,所有特征都存储在内存中,不占用硬盘空间,形成了End-to-End模型(proposal除外,end-to-end在Faster-RCNN中得以完善)

  • 使用了softmax分类
  • Rol pooling能进行反向传播,SPP层不适合

4. 多任务损失

两个loss,分别是:

对于分类loss,是一个N+1路的softmax输出,其中的N是类别个数,1是背景,使用交叉熵损失

对于回归loss,是一个4xN路输出的regressor,也就是说对于每个类别都会训练一个单独的regressor的意思,使用平均绝对误差(MAE)损失即L1损失

5. 对比

6. 总结

相关推荐
全栈开发圈17 小时前
干货分享|R语言聚类分析1
开发语言·r语言
Coovally AI模型快速验证18 小时前
无人机 RGB+热红外融合检测建筑裂缝与渗漏,34 层高楼约 2 小时
目标检测·计算机视觉·无人机·智慧城市·裂缝检测·渗漏检测
AI浩1 天前
CollabOD:用于无人机小目标检测的跨尺度视觉协作多骨干网络
人工智能·目标检测·无人机
Techblog of HaoWANG1 天前
目标检测与跟踪(9)-- Jetson Xavier NX GPIO控制3D结构光C与Python双版本实现(中)
c语言·人工智能·目标检测
玦尘、2 天前
光伏发电短期功率预测——从数据到模型的完整技术实践(LSTM · TCN · CNN-LSTM · TCN-LSTM)
人工智能·cnn·lstm·tcn
LSQ的测试日记2 天前
深度学习_目标检测,RCNN,Fast-RCNN和Faster-RCNN
人工智能·深度学习·目标检测
V搜xhliang02462 天前
3D 点云处理(PCL)
人工智能·目标检测·计算机视觉·3d·分类·知识图谱
Techblog of HaoWANG2 天前
目标检测与跟踪(9)-- Jetson Xavier NX刷机、移植&部署YOLOv8量化模型(上)
人工智能·yolo·目标检测·边缘计算·sdkmanager·jetson刷机
向哆哆2 天前
交通标识与信号灯数据集(1000张图片已划分、已标注)AI训练适用于目标检测任务
人工智能·目标检测·计算机视觉
Techblog of HaoWANG3 天前
目标检测与跟踪(10)-- Jetson Xavier NX刷机、移植&部署YOLOv8量化模型(中)
python·yolo·目标检测·onnx·量化部署