图像处理之目标检测
目标检测认知
- Object Detection ,是指在给定的图像或视频 中检测出目标物体 在图像中的位置 和大小 ,并进行分类或识别等相关任务。
- 目标检测主要是将目标的分割和识别合二为一。
- 目标检测的核心关键:What(是什么)、Where(在哪里)
使用场景
目标检测用于以下场景:
- 图像处理;
- 自动驾驶:检测周围的车辆、行人、交通灯、道路标志等;
- 安防监控:监控公共场,发现异常行为,保障公共安全;
- 人脸检测;
- 医学影像分析:在医学影像方面可以识别肿瘤、组织变异等,用于医疗辅助;
- 无人机应用:识别特定目标,引导无人机飞行,比如监测天气、线路检测、搜寻救援、军事等;
- 缺陷检测:工业;
目标识别与标注
- 目标识别包含了分类 + 坐标位置(x, y, w, h):What、where
目标检测网络基础
目标检测方法
Detection主要分为以下三个支系:
one-stage系 | two-stage系 | multi-stage系 | |
---|---|---|---|
主要算法 | YOLO系列、SSD、RetinaNet | Fast R-CNN、Faster R-CNN | R-CNN、SPPNet |
检测精度 | 较低(随着网络的改进,精度也不低) | 较高 | 极高 |
检测速度 | 较快(达到实时视频流级别) | 较慢,5 fps | 极慢 |
鼻祖 | YOLOv1 | Fast R-CNN | R-CNN |
two-stage(包含全连接层)
1.双阶段,两部到位,特点如下:
- 候选区域生成:第一阶段生成候选区域(Region Proposals);
- 区域分类和回归:第二阶段对候选区域进行分类和回归,即对每个候选区域进行目标分类和位置精修。
- 代表算法:R-CNN(Region-CNN)系列,包括Fast R-CNN、Faster R-CNN、Mask R-CNN等。
2.基本流程:
one-stage(不包含全连接层,依赖不同卷积实现不同功能)
1.单阶段,一步到位,特点如下:
- 端到端训练:直接从图像中提取特征并进行分类和回归,即同时进行目标分类和位置回归。
- 实时性高:由于仅有一个阶段,计算速度快,适合实时应用。
- 代表算法:YOLO(You Only Look Once)系列、SSD等。
2.基本流程:
目标检测指标
目标框指标
- 在目标检测中,每个检测出的目标物体通常都会标注一个框(Bounding Box),用于表示目标的位置和大小,这个框叫目标框。
IoU(预测框与真实框的重合率)
- 基础英文单词:【交集】Intersection 【并集】Union
- 前景目标交并比:𝐼𝑜𝑈=A∩BA∪B
- loU(Intersection over Union),预选框正确性的度量指标。
Confidence
1.在目标检测中,目标框会标注一个置信度(Confidence Score),通常指的是模型对于预测结果的置信程度。
2.置信度通常是一个0到1 之间的实数,是由神经网络模型预测出来的,代表着模型对该预选框的信心(可靠程度)。
3.置信度一般分为两部分:
- 目标存在置信度(Objectness score):一个标量,表示预选框中存在(任何)目标的概率。
- 类别置信度(Class confidence):多个标量(每个类别一个),预选框中目标属于每一个类别的概率。
3.置信度是通过神经网络 模型在训练过中学习得到的:
- 分类损失(Classification loss):用于计算类别置信度的误差。
- 定位损失(Localization loss):用于计算预选框与实际标注框之间的位置误差。
- 目标存在的损失(Objectness loss):用于计算目标存在置信度的误差。
4.综合置信度:
在某些目标检测算法(如YOLO)中,综合置信度通常表示为:
- 综合置信度目标存在的置信度类别置信度综合置信度=目标存在 的置信度×类别置信度
- 置信度的预测机制使得目标检测算法能够在复杂的图像中准确地定位和识别目标物体。
精度和召回率(与目标检测精度相关,指标之一)
- 精度和召回率的计算是基于置信度阈值来计算的,即IOU的最小值;
混淆矩阵
Precision和Recall
mAP的计算
mAP(Mean Average Precision)是评估 模型效果的综合指标 ,是根据recall 和Precision计算出来的
计算步骤
1.根据IoU 划分TP 和FP;
2.按置信度从大到小 进行排序,计算从Top-1 到Top-N 对应的Precision 值和Recall值;
3.绘制P-R曲线,进行AP(面积)计算;
- 设置目标框置信度阈值常用阈值,小于该值的框会被过滤掉设置目标框置信度阈值阈值设置为,小于该值的框会被过滤掉设置目标框置信度阈值阈值设置为、针对每个阈值分布求之后,在求平均值
- 𝐴𝑃50:设置目标框置信度阈值(𝐼𝑂𝑈),常用阈值0.5,小于该值的框会被过滤掉
- 𝐴𝑃75:设置目标框置信度阈值(𝐼𝑂𝑈),阈值设置为0.75,小于该值的框会被过滤掉
- 𝐴𝑃50−95:设置目标框置信度阈值(𝐼𝑂𝑈),阈值设置为0.50、0.55....0.95,针对每个阈值分布求𝐴𝑃之后,在求平均值
案例分析
1.场景假设:假如有8个目标,检索出来20个目标框(ID)
①目标框的置信度(Confidence Score)以及正负样本预测结果如下表(并按照置信度降序排序):
ID | Confidence | Label |
---|---|---|
4 | 0.91 | 1 |
2 | 0.76 | 1 |
13 | 0.65 | 0 |
19 | 0.46 | 0 |
6 | 0.45 | 0 |
9 | 0.38 | 1 |
16 | 0.24 | 1 |
1 | 0.23 | 0 |
18 | 0.23 | 0 |
5 | 0.13 | 0 |
7 | 0.12 | 1 |
15 | 0.12 | 0 |
10 | 0.11 | 0 |
17 | 0.10 | 0 |
12 | 0.09 | 0 |
20 | 0.08 | 1 |
14 | 0.07 | 0 |
8 | 0.03 | 0 |
11 | 0.03 | 0 |
3 | 0.01 | 0 |
②TOP-N概念理解:以返回的前N个框计算指标
- 如果N=5,则可计算出:TP = 2 , FP = 3,共有目标8个
- Precision = 2/5 = 40%
- Recall = 2/8 = 25%
- 随着N的增大,召回率必然不会变小,但是精度也是很难评。
ID | Score | Label | 混淆矩阵 |
---|---|---|---|
4 | 0.91 | 1 | True Positives |
2 | 0.76 | 1 | True Positives |
13 | 0.65 | 0 | False Positives |
19 | 0.46 | 0 | False Positives |
6 | 0.45 | 0 | False Positives |
③mAp计算
- PASCAL VOC 2010以前:设置11个recall阈值[0, 0.1, 0.2, ..., 1],计算Recall大于等于每一个阈值时的最大Precision,AP即平均值
- 表示处于阈值和下一级阈值之间的值相同的阈值可能对应不同的精度表示处于阈值𝑟和下一级阈值之间的𝑟𝑒𝑐𝑎𝑙𝑙值(相同的阈值可能对应不同的精度)
ID | Score | Label | Recall | Precision |
---|---|---|---|---|
4 | 0.91 | 1 | 1/8(0.125) | 1/1 |
2 | 0.76 | 1 | 2/8(0.25) | 2/2 |
13 | 0.65 | 0 | 2/8(0.25) | 2/3 |
19 | 0.46 | 0 | 2/8(0.25) | 2/4 |
6 | 0.45 | 0 | 2/8(0.25) | 2/5 |
9 | 0.38 | 1 | 3/8(0.375) | 3/6 |
16 | 0.24 | 1 | 4/8(0.5) | 4/7 |
1 | 0.23 | 0 | 4/8(0.5) | 4/8 |
18 | 0.23 | 0 | 4/8(0.5) | 4/9 |
5 | 0.13 | 0 | 4/8(0.5) | 4/10 |
7 | 0.12 | 1 | 5/8(0.625) | 5/11 |
15 | 0.12 | 0 | 5/8(0.625) | 5/12 |
10 | 0.11 | 0 | 5/8(0.625) | 5/13 |
17 | 0.10 | 0 | 5/8(0.625) | 5/14 |
12 | 0.09 | 0 | 5/8(0.625) | 5/15 |
20 | 0.08 | 1 | 6/8(0.75) | 6/16 |
14 | 0.07 | 0 | 6/8(0.75) | 6/17 |
8 | 0.03 | 0 | 6/8(0.75) | 6/18 |
11 | 0.03 | 0 | 6/8(0.75) | 6/19 |
3 | 0.01 | 0 | 6/8(0.75) | 6/20 |
于是就有了下面的数据:
R | 0 | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 | 0.9 | 1.0 |
---|---|---|---|---|---|---|---|---|---|---|---|
P | 1.0 | 1.0 | 1.0 | 0.5 | 0.571 | 0.571 | 0.455 | 0.375 | 0 | 0 | 0 |
- 于是可以计算出mAP值:
AP=111(1+1+1+0.5+0.571+0.571+0.455+0.375+0+0+0)=49.75%
- PASCAL VOC 2010以后采用面积法: 假设真实目标数为M,recall取样间隔为[0, 1/M, ..., M/M]=[0, 0.125, 0.25, 0.375, 0.5, 0.625, 0.75, 0.875, 1.0]
- 把各块面积加起来就是mAP值了:
mAP=0.125⋆1+(0.25−0.125)⋆1+(0.375−0.25)⋆0.5+(0.5−0.375)⋆0.571+(0.625−0.5)⋆0.455+(0.75−0.675)⋆0.375+(0.875−0.75)⋆0=48.7%
后处理方法NMS
1.目标检测的后处理方法主要用于优化检测结果,比如检测出来的各个目标有多个目标框怎么搞?
2.非极大值抑制(Non-maximum suppression, NMS)是目标框后处理方法,是非常重要的一个环节。
pred = non_max_suppression(pred, conf_thres=0.25, iou_thres=0.45, classes, agnostic_nms, max_det=max_det)
3.上图最终输出的目标框计算过程如下(按照类别各自分开处理):
- 设定目标框置信度阈值,常用阈值0.5,小于该值的框会被过滤掉( conf_thres=0.25**)**;
- 根据置信度降序排列候选框;
- 选取置信度最高的框A添到输出列表,并将其从候选框列表中删除;
- 候选框列表中所有框依次与A计算loU,删除大于IoU阈值的框( iou_thres=0.45)(找出不同类别的框);
- 重复上述过程,直到候选框列表为空;
- 输出列表就是最后留下的目标框;
检测速度
前传耗时
- 单位ms,从输入 图像到输出 最终结果所消耗 的时间 ,包括前处理耗时(如图像归一化)、网络前传耗时、后处理耗时(如非极大值抑制)。
FPS
- Frames Per Second,每秒钟能处理的图像数量。
FLOPS
- 浮点运算量,处理一张图像所需要的浮点运算数量,跟具体软硬件没有关系,可以公平地比较不同算法之间的检测速。
整体网络结构
- 目标检测网络主要由Backbone、Neck、Head三块组成。
网络结构图
结构图内部展开:
- Backbone network ,即主干网络,是目标检测网络最为核心的部分;
- Neck network ,即颈部网络 ,主要对backbone输出的特征进行整合,常见的整合方式FPN(Feature Pyramid Network);
- Detection head ,即检测头,在特征之上进行预测,包括物体的类别和位置。
YOLO网络结构
Model | Backbone | Neck | Head | Prediction Loss |
---|---|---|---|---|
v1 | GoogLeNet | None | FC → 7×7×(5+5+20) | MSE Loss |
v2 | Darknet19 | Passthrough | 13×13×5×(5+20) | MSE Loss |
v3 | Darknet53 | FPN | 13×13×3×(5+80), 26×26×3×(5+80), 52×52×3×(5+80) | MSE Loss |
v4 | Darknet53_CSP | SPP、FPN、PAN | 13×13×3×(5+80), 26×26×3×(5+80), 52×52×3×(5+80) | CIoU Loss |
v5 | Darknet53_CSP | SPP, cspFPN, cspPAN | 13×13×3×(5+80), 26×26×3×(5+80), 52×52×3×(5+80) | GIoU Loss |
目标检测数据集
PASCAL VOC
共20类,主要用于目标检测。
VOC2007: 9963张图,24640个标注目标。
VOC2012: 23080图片,54900目标
- 分类结构
可做项目
- 目标检测
- 图像分割
- 行为识别
- 人体布局
MS COCO
MS COCO数据集,全称是Microsoft Common Objects in Context.
- 80分类、20万个图像、超过50万目标标注。
- 可用来图像识别、目标检测和分割等任务。
- 数据集分为训练集、验证集和测试集。