1. 目标检测基本概念
定义:识别图片中的物体并定位其位置
多任务特性:位置定位 + 类别识别
主要挑战:
目标种类与数量繁多
目标尺度不均
遮挡、噪声等外部环境干扰
2. 主要数据集
VOC数据集
PASCAL VOC挑战赛数据集
4大类,20小类
VOC 2007: 9963张图片,24640个目标
VOC 2012: 23080张图片,54900个目标
COCO数据集
微软标注的MS COCO数据库
20万个图像,80个类别
超过50万个目标标注
平均每个图像7.2个目标
3. 标注格式
三种主要格式:
-
YOLO(TXT):归一化的(x,y,w,h) - 中心点坐标和宽高
-
VOC(XML):(Xmin,Ymin,Xmax,Ymax) - 左上角和右下角坐标
-
COCO(JSON):(Xmin,Ymin,W,H) - 非归一化的左上角坐标和宽高
4. 评估指标
核心指标:
IoU(交并比):边界框正确性度量
Precision(准确率):查准率
Recall(召回率):查全率
P-R曲线:精度-召回率曲线
AP(Average Precision):平均精度
mAP(mean AP):各类别AP的均值
AP计算方法:
11点法:在召回率[0,1]区间取11个点计算平均精度
评估流程:IoU划分TP/FP → 按置信度排序 → 计算P/R → 绘制P-R曲线 → 计算AP
5. 检测方法演进
传统方法:
滑动窗口法:人工设计尺寸,大量冗余操作,定位不准确
深度学习方法:
Anchor-based方法:
使用anchor box描述目标
ratio + scale描述位置和形状
自顶向下,类似滑动窗口穷举
Anchor-free方法:
自底向上,自动生成
无需预设anchor过程
Two-stage算法:
经典发展线:R-CNN → SPP-Net → Fast R-CNN → Faster R-CNN
其他:Cascade R-CNN、Guided Anchoring
One-stage算法:
YOLO系列:v1-v5
SSD系列:SSD、DSSD、FSSD
其他:RefineDet
6. 关键技术
非极大值抑制(NMS):
-
设置置信度阈值(通常0.5)
-
按置信度降序排列候选框
-
选取最高置信度框加入输出列表
-
删除与选中框IoU大于阈值的候选框
-
重复直到候选框为空