深度学习(目标检测)

一、目标检测核心定义与核心问题​

  1. 定义​

目标检测是识别图片中物体类别 + 定位物体位置的计算机视觉任务,本质是 "位置预测 + 类别分类" 的多任务学习。​

  1. 核心挑战​
  • 目标种类与数量繁多,需覆盖多样化物体;
  • 目标尺度不均,同一物体在图片中可能呈现不同大小;
  • 外部环境干扰,如物体遮挡、图像噪声等影响检测精度。

二、目标检测常用数据集​​​

|-----------|------------------------------------------|-----------------------------------------------------------------------------|
| 数据集​ | 起源 / 背景​ | 核心参数​ |
| VOC 数据集​ | 世界级 PASCAL Visual Object Classes 挑战赛数据集​ | - 类别:4 大类、20 小类- VOC 2007:9963 张图片,24640 个目标- VOC 2012:23080 张图片,54900 个目标​ |
| COCO 数据集​ | 2014 年微软出资标注的 MS COCO 数据库​ | - 图像数量:20 万个- 类别:80 个- 目标标注数:超过 50 万个- 平均每图目标数:7.2 个​ |

三、Ground Truth(真实标注)格式​

Ground Truth 是数据集的 "标准答案",包含物体类别 + 真实边界框坐标,PPT 介绍了三种主流格式:​

|----------------|---------------------------|-----------------------------------------|
| 格式类型​ | 坐标表示方式​ | 关键特点​ |
| YOLO(TXT 格式)​ | (x, y, w, h)​ | 均为归一化值,x/y 是边界框中心点坐标,w/h 是宽 / 高​ |
| VOC(XML 格式)​ | (Xmin, Ymin, Xmax, Ymax)​ | 非归一化,Xmin/Ymin 是左上角坐标,Xmax/Ymax 是右下角坐标​ |
| COCO(JSON 格式)​ | (Xmin, Ymin, W, H)​ | 非归一化,Xmin/Ymin 是左上角坐标,W/H 是宽 / 高​ |

示例:若图片尺寸为 1000×800px,标注 "Dog" 的坐标可能为(100, 600, 150, 100),即左上角 (100,600)、宽 150px、高 100px。​

四、目标检测评估指标​

评估指标用于衡量模型检测效果:​

  1. 基础指标:IoU(交并比)​
  • 定义:IoU = 边界框交集面积 / 边界框并集面积,是衡量预测框与真实框重合度的核心指标;
  • 作用:先过滤低类别置信度的预测结果,再用 IoU 判断边界框正确性(IoU 越大,重合度越高)。
  1. 样本分类:TP/FP/TN/FN​

在目标检测场景中,四类样本的定义与 IoU 强相关:​

|-----------|------------------------------|
| 指标​ | 定义(目标检测场景)​ |
| TP(真正样本)​ | 真实为正样本(有物体),预测为正样本,且IoU>阈值​ |
| FP(假正样本)​ | 真实为负样本(无物体),预测为正样本,且IoU<阈值​ |
| TN(真负样本)​ | 真实为负样本,预测为负样本(无实际检测意义)​ |
| FN(假负样本)​ | 真实为正样本,预测为负样本(即 "漏检")​ |

  1. 核心评估指标:Precision/Recall/AP/mean AP​
  • Precision(查准率):预测为正样本的结果中,真实为正样本的比例(衡量 "预测准确性");
  • Recall(查全率):真实为正样本的结果中,被正确预测的比例(衡量 "漏检率");
  • P-R 曲线:以 Recall 为横轴、Precision 为纵轴绘制的曲线,曲线下面积越大,模型效果越好;
  • AP(平均精度):P-R 曲线的量化指标,常用 "11 点法" 计算(取 Recall=0,0.1,...,1.0 共 11 个点,对应 Precision 的平均值);
  • mean AP(mAP):所有类别的 AP 的算术平均值,是目标检测模型的核心综合指标。
  1. 补充:mean 与 average 的区别​
  • mean(算术平均):直接对多个数值求和后除以数量(如 mAP 是 AP 的 mean);
  • average(平均):包含多种度量规则,需先设计均衡策略(如 Average P 需先均衡 Precision)。

五、目标检测方法​

  1. 传统方法:滑动窗口法​
  • 原理:人工设计固定尺寸的窗口,在图片上滑动遍历,判断窗口内是否有物体;
  • 缺点:需人工设计窗口尺寸、存在大量冗余计算、定位精度低,已被深度学习方法替代。
  1. 深度学习方法​

(1)核心概念:anchor box(锚框)​

  • 定义:预先设定的 "候选框模板",用两个参数描述:
  • scale(尺度):表示目标的面积大小;
  • aspect ratio(长宽比):表示目标的形状;
  • 位置:由 CNN 输出的 feature map 上的每个点对应生成。

(2)分类:anchor-base vs anchor-free​

  • anchor-base(基于锚框):
  • 思路:自顶向下,类似滑动窗口法 ------ 先穷举大量 anchor box,再按置信度筛选;
  • anchor-free(无锚框):
  • 思路:自底向上,自动生成候选框,无需预设 anchor(避免 anchor 设计的主观性)。

(3)核心框架:two stage vs one stage​

两类框架的核心区别是 "是否生成候选区域(proposal)":​

|-----------------|-----------------------------------------------------------------------------|---------------------------------------------------------------------------------|-----------------------|
| 框架类型​ | 流程​ | 常见算法​ | 特点​ |
| two stage(两阶段)​ | 输入→CNN→生成 proposal(候选区域)→ROI pooling(感兴趣区域池化)→全连接层→类别预测 + 位置回归→NMS(非极大值抑制)​ | R-CNN 系列(R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN)、Cascade R-CNN、Guided Anchoring​ | 精度高、速度慢​ |
| one stage(单阶段)​ | 输入→CNN→直接输出类别预测 + 位置回归→NMS​ | YOLO 系列(v1-v5)、SSD 系列(SSD、DSSD、FSSD)、RefineDet​ | 速度快、精度略低于两阶段(近年差距缩小)​ |

六、关键技术:非极大值抑制(NMS)​

NMS 是目标检测的 "后处理步骤",用于消除同一物体的重复预测框,步骤如下:​

  1. 设定置信度阈值(常用 0.5),过滤低于阈值的候选框;
  1. 按候选框的置信度从高到低排序;
  1. 选取置信度最高的框 A,加入 "最终输出列表",并从候选框列表中删除 A;
  1. 计算候选框列表中所有剩余框与 A 的 IoU,删除 IoU > 阈值的框(视为重复框);
  1. 重复步骤 3-4,直到候选框列表为空,返回最终输出列表。
相关推荐
Y200309163 小时前
基于 CIFAR10 数据集的卷积神经网络(CNN)模型训练与集成学习
人工智能·cnn·集成学习
老兵发新帖3 小时前
主流神经网络快速应用指南
人工智能·深度学习·神经网络
AI量化投资实验室3 小时前
15年122倍,年化43.58%,回撤才20%,Optuna机器学习多目标调参backtrader,附python代码
人工智能·python·机器学习
java_logo3 小时前
vllm-openai Docker 部署手册
运维·人工智能·docker·ai·容器
倔强青铜三4 小时前
苦练Python第67天:光速读取任意行,linecache模块解锁文件处理新姿势
人工智能·python·面试
算家计算4 小时前
重磅突破!全球首个真实物理环境机器人基准测试正式发布,具身智能迎来 “ImageNet 时刻”
人工智能·资讯
新智元4 小时前
苹果 M5「夜袭」高通英特尔!AI 算力狂飙 400%,Pro 三剑客火速上新
人工智能·openai
GoppViper4 小时前
什么是GEO生成式引擎优化?GEO科普:定义、原理与应用指南
人工智能·搜索引擎
新智元4 小时前
谷歌 × 耶鲁联手发布抗癌神器!AI 推理精准狙击「隐身」癌细胞
人工智能·openai