跟李沐学AI：目标检测、锚框

用于表示物体的位置，一个边缘框通过四个数字定义：(坐上x, 左上y, 右下x, 右下y)或（左上x, 左上y, 宽, 高）

通常物体检测或目标检测的数据集比图片分类的数据集小很多，因为物体检测数据集标注成本高很多。

目标检测数据集一般每行表示一个物体，每行分别有图片文件名、物体类别、边缘框。

COCO是目标检测中常用的数据集：COCO - Common Objects in Context。该数据集包含80类物体、330K张图片以及1.5M个物体

物体检测或目标检测之别图片中多个物体的类别和位置。

位置常用边缘框表示。

boudingbox是目标在图像中的真实位置，锚框是算法对目标位置的猜测。

一类目标检测算法是基于锚框。算法首先提出多个锚框，随后算法预测每个锚框内是否含有我们需要检测的物体，如果含有，预测这个锚框到真实边缘框的偏移。

IoU用来计算两个框之间的相似度。

交并比为0表示两个框之间无重叠，1则表示完全重合。公式表示如下：

**每个锚框是一个训练样本。**每个锚框要么标注为背景，要么关联上一个真实边缘框。算法会生成大量的锚框，但真实的边缘框很少，绝大数的锚框都是背景，故导致大量的负样本。

一个例子

假设该矩阵为一个图像，该图像有四个边缘框和九个锚框。每个锚框计算IoU值。跳出最大的IoU值，本例中假设为，则将边缘框3赋值给锚框2作为锚框2的标号。随后将所对应的行、列删除。

同理，选出次最大值，样例中为将边缘框1赋值给锚框7，随后删除对应行、列。重复直至所有边缘框都被赋值。

其中，锚框的x\y\w\h是相对于featuremap或者原图的一个比例，大小为(0,1]。所以从featuremap中确定的锚框可以按比例缩放回原图中。

每个锚框预测一个边缘框。每个预测的精度可能不同。NMS可以合并相似的预测：首先选中非背景类的最大预测值，去掉所有其它与他IoU值大于的预测值，即去掉与它高度重合的锚框。重负上述过程直至所有预测被选中或去除。

一类目标检测算法基于锚框进行预测。

首先生成大量锚框并赋予标号，每个锚框作为一个样本进行训练。

在预测时，使用NMS去除冗余的预测。