读懂目标检测：从基础概念到主流算法

一、目标检测：不止于 "识别"，更要 "定位"

目标检测的核心任务可以概括为 **"识别 + 定位"**：给定一张图像，算法需要输出两个关键信息 ------ 图像中包含的物体类别（如人、车、狗），以及每个物体的具体位置（通常用矩形边界框表示）。

从任务本质来看，目标检测属于多任务学习，需同时完成 "类别分类" 和 "位置回归" 两个子任务，这也决定了其技术复杂度远高于单纯的图像分类（仅判断图像类别）和目标定位（仅确定单个物体位置）。

目标检测面临的三大核心难题

尽管技术不断发展，但目标检测仍需攻克以下关键挑战：

目标种类与数量繁多：现实场景中物体类别成千上万（如动物、交通工具、日常用品等），且单张图像中可能同时存在多个不同类别的物体，增加了识别难度。
目标尺度不均：同一物体在图像中可能呈现极大的尺寸差异（如近处的汽车和远处的行人），算法需兼顾 "大目标" 的细节和 "小目标" 的特征提取。
外部环境干扰：遮挡（如行人被树木遮挡）、图像噪声（如模糊、光照不均）等因素，会导致物体特征不完整，影响检测精度。

二、目标检测的 "基石"：常用数据集

高质量的标注数据集是目标检测算法训练与验证的基础。目前业界最主流的两大数据集分别是 VOC 和 COCO，二者在规模、类别数量和标注精度上各有特点，具体对比如下：

数据集	起源与背景	核心参数	适用场景
VOC 数据集	源于 PASCAL VOC 挑战赛（世界级计算机视觉赛事），是早期目标检测算法的主要验证平台	- 类别：4 大类（如人、动物、交通工具）、20 小类- VOC 2007：9963 张图像，24640 个目标标注- VOC 2012：23080 张图像，54900 个目标标注	适合小规模、基础算法的训练与测试，类别覆盖较为通用
COCO 数据集	由微软 2014 年出资标注，是当前主流的大规模目标检测数据集	- 类别：80 个（覆盖日常场景常见物体）- 图像数量：20 万张- 目标标注：超 50 万个，平均每张图含 7.2 个目标	适合大规模、高精度算法（如深度学习模型）的训练，更贴近真实场景

三、Ground Truth：目标检测的 "标准答案"

在模型训练中，"Ground Truth"（真值）是算法学习的目标，即人工标注的 "物体类别 + 边界框坐标"。不同数据集和算法采用的坐标格式不同，核心有以下三种：

1. YOLO (TXT) 格式：归一化中心点坐标

格式：(x, y, w, h)
含义：
- x、y：物体边界框的中心点在图像中的横、纵坐标（归一化，范围 0~1）；
- w、h：边界框的宽度和高度（同样归一化）。
优势：归一化后不受图像尺寸影响，适合不同分辨率图像的统一处理。

2. VOC (XML) 格式：对角坐标

格式：(Xmin, Ymin, Xmax, Ymax)
含义：
- (Xmin, Ymin)：边界框左上角的坐标；
- (Xmax, Ymax)：边界框右下角的坐标。
特点：直接对应像素位置，直观易懂，是 VOC 数据集的标准格式。

3. COCO (JSON) 格式：非归一化左上角坐标

格式：(Xmin, Ymin, W, H)
含义：
- (Xmin, Ymin)：边界框左上角的像素坐标（非归一化，数值与图像分辨率相关）；
- W、H：边界框的像素宽度和高度。
特点：COCO 数据集专用，保留原始像素尺度，适合高精度标注场景。

四、如何评价检测效果？核心评估指标

目标检测的评估需要兼顾 "检测准确性"（是否认错类别）和 "定位准确性"（边界框是否精准），常用指标如下：

1. IoU：衡量边界框的定位精度

IoU（Intersection over Union，交并比）是判断 "预测边界框" 与 "Ground Truth 边界框" 重合程度的核心指标，计算公式为：IoU = （预测框与真值框的交集面积） / （预测框与真值框的并集面积）

取值范围：0~1，IoU 越接近 1，说明定位越精准；
应用场景：过滤低质量预测框（通常设定 IoU 阈值，如 0.5，低于阈值的预测框视为无效）。

2. TP/FP/TN/FN：区分检测结果的 "真伪"

为了量化检测结果的正确性，引入四个基础概念，其定义与目标检测场景的对应关系如下：

评价指标	核心定义	目标检测中的具体含义
TP（真阳性）	真值为正样本，预测也为正样本	预测框与真值框的 IoU > 设定阈值（如 0.5），且类别预测正确
FP（假阳性）	真值为负样本，预测为正样本	预测框与所有真值框的 IoU <阈值（即 "误检"，如将背景识别为物体）
TN（真阴性）	真值为负样本，预测也为负样本	背景区域未被错误预测为物体（无实际检测结果，通常不重点关注）
FN（假阴性）	真值为正样本，预测为负样本	图像中存在物体，但未被检测到（即 "漏检"）

3. Precision 与 Recall：平衡 "查准" 与 "查全"

基于 TP/FP/FN，进一步衍生出两个关键指标，用于衡量算法的综合性能：

Precision（精确率 / 查准率）：衡量 "预测为正的结果中，真正为正的比例"，公式为：Precision = TP / (TP + FP)→ 关注 "少误检"：精确率越高，误将背景识别为物体的概率越低（适合安防监控等不允许误检的场景）。
Recall（召回率 / 查全率）：衡量 "所有真实正样本中，被成功预测为正的比例"，公式为：Recall = TP / (TP + FN)→ 关注 "少漏检"：召回率越高，漏检物体的概率越低（适合自动驾驶等不允许漏检的场景）。

Precision 与 Recall 通常存在 "trade-off"（权衡）：提高精确率可能导致召回率下降，反之亦然。为了综合评估二者，引入P-R 曲线（以 Recall 为横轴，Precision 为纵轴绘制的曲线），曲线下面积越大，算法性能越好。

4. AP 与 mAP：衡量多类别检测性能

AP（Average Precision，平均精确率）：针对单个类别，基于 P-R 曲线计算的综合指标，常用 "11 点法"（取 Recall 为 0、0.1、...、1.0 共 11 个点对应的 Precision，求平均值）。
mAP（mean AP，平均 AP）：针对所有类别，计算每个类别的 AP 后取算术平均值，是目标检测算法性能的核心衡量标准（如 COCO 挑战赛中，mAP 是主要排名指标）。

需要注意 "mean" 与 "average" 的区别：

mean：单纯的算术平均（如 mAP 是所有类 AP 的算术平均）；
average：需先设计度量规则使结果均衡（如 AP 的 "11 点法" 是对 Precision 的均衡计算）。

五、目标检测算法演进：从传统到深度学习

目标检测算法的发展可分为 "传统方法" 和 "深度学习方法" 两个阶段，其中深度学习方法已成为当前主流。

1. 传统方法：滑动窗口法（已淘汰）

核心思路：通过人工设计的滑动窗口（固定尺寸或多尺度）遍历图像，对每个窗口进行特征提取（如 HOG、SIFT）和分类，判断窗口内是否存在目标。
缺点：
- 需人工设计窗口尺寸和特征，泛化能力差；
- 大量冗余计算（窗口数量多），效率低；
- 定位精度差（窗口与物体边界难以完全匹配）。

2. 深度学习方法：anchor 与 "单 / 双阶段"

深度学习方法通过 CNN 自动提取图像特征，大幅提升了检测精度和效率，核心围绕 "anchor"（锚框）和 "检测流程" 展开。

（1）anchor：目标检测的 "辅助工具"

anchor（锚框）是预先在图像中设定的一系列矩形框，用于辅助定位物体位置，其核心参数包括：

scale（尺度）：锚框的面积大小（如 128×128、256×256），应对不同尺寸的物体；
aspect ratio（长宽比）：锚框的宽高比例（如 1:1、1:2、2:1），应对不同形状的物体。

锚框的位置由 CNN 输出的 "feature map"（特征图）上的像素点决定，每个像素点对应多个不同 scale 和 aspect ratio 的锚框，覆盖图像中可能存在物体的区域。

（2）算法分类：anchor-base vs anchor-free

根据是否依赖锚框，深度学习方法可分为两类：

anchor-base（基于锚框）：
- 思路："自顶向下"，先通过锚框穷举图像中可能的物体位置，再对每个锚框进行 "类别判断" 和 "位置修正"；
- 代表算法：Faster R-CNN、SSD；
- 特点：依赖锚框设计，需人工调整 scale 和 aspect ratio，对小目标检测较友好。
anchor-free（无锚框）：
- 思路："自底向上"，直接从图像特征中预测物体的中心点或边界，无需预设锚框；
- 代表算法：YOLO v1（早期无锚框）、CenterNet；
- 特点：减少人工参数，简化流程，对大目标和不规则形状物体检测更灵活。

（3）检测流程：two stage vs one stage

根据是否分阶段处理 "候选区域" 和 "类别 / 位置预测"，深度学习方法可分为 "双阶段" 和 "单阶段"：

类型	核心流程	代表算法	优缺点
two stage（双阶段）	1. 第一阶段：生成 "候选区域"（可能包含物体的区域，如 RPN 网络）；2. 第二阶段：对候选区域进行 "类别预测" 和 "位置回归"；3. 最终通过 NMS 过滤冗余框。	R-CNN 系列（R-CNN、Fast R-CNN、Faster R-CNN）、Cascade R-CNN	优点：精度高（候选区域减少了无效计算）；缺点：速度慢（两阶段处理，流程复杂）。
one stage（单阶段）	1. 直接对图像进行 CNN 特征提取；2. 一次性完成 "类别预测" 和 "位置回归"；3. 通过 NMS 过滤冗余框。	YOLO 系列（v1-v5）、SSD 系列（SSD、DSSD）、RefineDet	优点：速度快（单阶段处理，适合实时场景）；缺点：精度略低于双阶段（需处理大量候选框）。

（4）NMS：过滤冗余预测框的关键步骤

NMS（Non-maximum suppression，非极大值抑制）是目标检测的最后一步，用于删除同一物体的重复预测框，核心流程如下：

设定置信度阈值（如 0.5），过滤掉置信度低于阈值的预测框；
按置信度从高到低排序剩余预测框；
选取置信度最高的框 A，加入输出列表，并从候选框中删除 A；
计算候选框中所有剩余框与 A 的 IoU，删除 IoU 大于阈值（如 0.5）的框（视为重复框）；
重复步骤 3~4，直到候选框为空，输出最终检测结果。

六、总结

目标检测作为计算机视觉的核心任务，其技术栈涵盖 "数据集 - 标注格式 - 评估指标 - 算法设计" 四大模块。从早期的滑动窗口法到如今的 YOLO、Faster R-CNN 等深度学习算法，目标检测在 "精度" 和 "速度" 上不断突破，为实际应用提供了强大的技术支撑。

未来，随着 Transformer 等新架构的引入，以及小样本检测、多模态检测等方向的发展，目标检测将进一步向 "更高精度、更快速度、更泛化" 的方向演进，在更多场景中落地生根。