图像识别技术与应用-YOLO

2401_824256862025-03-13 17:34

1 YOLO-V1

YOLO-V1它是经典的one-stage方法，You Only Look Once，名字就已经说明了一切！把检测问题转化成回归问题，一个CNN就搞定了！也可以对视频进行实时检测，应用领域非常广！

YOLO-V1诞生与2015年

优点

1)快速，简单

缺点

1)每个Cell只预测一个类别，如果重叠无法解决

2)小物体检测效果一般，长宽比可选的但单一

**核心思想:**把目标检测任务当作一个回归问题处理

网络架构

损失函数

2 YOLO-V2

**优点:**比YOLO-V1更快，更强，更大的分辨率

YOLO-V2-Batch Normalization

V2版本舍弃Dropout，卷积后全部加入Batch Normalization

网络的每一层的输入都做了归一化，收敛相对更容易

经过Batch Normalization处理后的网络会提升2%的mAP

从现在的角度来看，Batch Normalization已经成网络必备处理

网络结构

DarkNet，实际输入为416*416，没有FC层，5次降采样（13*13），1*1卷积节省了很多参数

YOLO-V2-聚类提取先验框

**特点:**它通过对训练集中标注的目标框尺寸等信息进行聚类分析，自动确定合适的先验框尺寸，使得先验框能更好地匹配不同数据集中目标的实际形状和大小分布情况，进而提升目标检测的精度，让网络在预测时更容易收敛到合适的边界框

YOLO-V2-Anchor Box

1)通过引入anchor boxes，使得预测的box数量更多（13*13*n）

2)跟faster-rcnn系列不同的是先验框并不是直接按照长宽固定比给定

感受野

简介：概述来说就是特征图上的点能看到原始图像多大区域。

YOLO-V2-Fine-Grained Features

如果最后一层时感受野太大了，小目标可能丢失了，需融合之前的特征。