目录
任务本质
目标检测 = 图像分类 (Classification) + 目标定位 (Localization)。
- 输入: 一张图片。
- 输出: 一组边界框(Bounding Box, BBox),每个框带一个类别标签和一个置信度分数。
经典架构:Backbone - Neck - Head
这是目前工业界(YOLO, Faster R-CNN)通用的组件化思想。
- Backbone (骨干网络):
作用: 提取特征。深层卷积网络(如 ResNet, CSPDarknet)。
本质: 将原始像素不断压缩、升华,生成多尺度的特征图 (Feature Maps)。 - Neck (脖子/特征融合):
作用: 解决"视野"问题。由于深层感受野大(看大物体),浅层感受野小(看小物体),Neck 负责把不同深度的特征图融合起来(如 FPN 结构)。 - Head (检测头):
作用: 做出决策。在融合后的特征图上进行最后的卷积,预测框的位置和类别。
算法演进
| 派系 | 代表算法 | 核心逻辑 | 特点 |
|---|---|---|---|
| Two-Stage | Faster R-CNN | 先选候选区,再精细分类。第一步先猜哪里可能有东西,第二步再看是什么。 | 准,但慢。多用于医疗影像、质检。 |
| One-Stage | YOLO 系列, SSD | 一步到位。直接在全图所有位置预测类别和框。 | 快,实时性高。大厂 AI 后端部署的主流。 |
三大核心算法组件
① Anchor Box (锚框)
- 本质: 预设在图片上的"参考模板"。算法不是凭空猜框,而是在预设的 9x9 或更多尺寸的框基础上进行微调(偏移量预测)。
② IoU (交并比) ------ 评估"准不准"
- 公式:
IoU=交集面积/并集面积 - 意义: 衡量预测框和真实框的重合程度。IoU > 0.5 通常认为检测成功。
③ NMS (非极大值抑制) ------ "去重逻辑"
- 场景: 一个物体周围可能预测出 100 个框,我们要把重合度高且分数低的删掉,只留最准的一个。
- 后端考点: NMS 涉及大量的 IoU 计算,是目标检测流水线中最耗时的非算子操作,常需要用 C++ 或 CUDA 进行加速。