探索目标检测：边界框与锚框的奥秘

笔者在2022年开始学习目标检测的时候，对各种框的概念那是相当混淆，比如：

中文名词：边界框、锚框、真实框、预测框等

英文名词：BoundingBox、AnchorBox、Ground Truth等

同一个英文名词比如BoundingBox翻译成中文也有多个叫法。下面注重区分这些概念。

目标检测需要识别图片中多个物体的位置与类别。

为了方便模型训练，我们人为地将图片中物体的位置与种类标注出来，这就是真实边界框Ground Truth。

边界框Bounding Box则更多的是一种泛指，它可以指代各个类型的框。

PascalVOC的xml标注文件： ( x 1 , y 1 , x 2 , y 2 ) (x_1, y_1, x_2, y_2) (x1,y1,x2,y2)，分别是矩形框左上角、右下角的坐标；
如下图中的坐标(1, 1)。
COCO的json标注文件： ( x , y , w , h ) (x, y, w, h) (x,y,w,h)，xy是矩阵框的中心点坐标，wh是矩阵框的宽高；

标注文件中每行表示一个物体，一般是：图片文件名、物体类别、边缘框。

模型对其「预测框」进行微调，使其接近Ground Truth Bounding Box。

如下图对红色的BBox回归，使其接近绿色的GT Box。

锚框Anchor是算法自动生成出的，GT BBox是人为的标注框。

目前定位精准的目标检测算法还是基于锚框的，即Anchor-based。

是在训练集上利用k-means等方法聚类出多个大小宽高不同的锚框预测:每个锚框中是否含有目标物体预测:从该锚框到边界框的偏移

1）要么设定好锚框的尺寸：

yaml 复制代码

  anchors:
    - [10,13, 16,30, 33,23]  # P3/8
    - [30,61, 62,45, 59,119]  # P4/16
    - [116,90, 156,198, 373,326]  # P5/32

2）要么通过k-means自动生成锚框，比如yolov5默认通过k-means自动生成锚框尺寸

3）作为超参数学习。我还没见过，估计这会产生额外的计算量

主流的目标检测算法大多基于锚框Anchor Box，每一个锚框都是一个训练样本。

对于每个锚框，要么标注成背景（负样本），要么关联上一个真实边界框（正样本）。

一张图片可能会产生上万个锚框，其中绝大多数都是背景，即大量的负样本，与之相比，正样本可能只有几十个。

图. 锚框的标注

假设4个目标物体对应着4个GT BBox，模型对每个目标物体各生成9个锚框；
计算每个GT与Anchor之间的IoU值，找到当前最大的IoU值 x 23 x_{23} x23，将锚框关联上BBox_3，由它去预测BBox_3。删去该行该列；
继续找当前最大的IoU值 x 71 x_{71} x71，重复如上操作，删去该行该列；

与BBox关联的锚框作为正样本 ，其他的作为背景就是负样本。

PS：Anchor的概念最早出现在Faster RCNN 提出的RPN网络 ，RPN网络的Anchor启发了后面的SSD 和Yolov2算法。

召回：将所有"可能的正确结果"返回给排序

排序：会将所有召回的结果进行排序，将最靠前的结果作为最终答案

如果这篇文章对您有些许帮助，请帮忙点个赞👍或收个藏📃。您的支持是我继续创作的动力💪！

不要害怕，不要着急。保持每日的前进☀️与积极的内心❤️，命运总在曲折中馈赠最好的礼物。