跟李沐学AI:目标检测、锚框

边缘框

用于表示物体的位置,一个边缘框通过四个数字定义:(坐上x, 左上y, 右下x, 右下y)或(左上x, 左上y, 宽, 高)

通常物体检测或目标检测的数据集比图片分类的数据集小很多,因为物体检测数据集标注成本高很多。

目标检测数据集

目标检测数据集一般每行表示一个物体,每行分别有图片文件名、物体类别、边缘框。

COCO是目标检测中常用的数据集:COCO - Common Objects in Context。该数据集包含80类物体、330K张图片以及1.5M个物体

目标检测总结

物体检测或目标检测之别图片中多个物体的类别和位置。

位置常用边缘框表示。

锚框

boudingbox是目标在图像中的真实位置,锚框是算法对目标位置的猜测。

一类目标检测算法是基于锚框。算法首先提出多个锚框,随后算法预测每个锚框内是否含有我们需要检测的物体,如果含有,预测这个锚框到真实边缘框的偏移。

IoU-交并比

IoU用来计算两个框之间的相似度。

交并比为0表示两个框之间无重叠,1则表示完全重合。 公式表示如下:

赋予锚框标号

**每个锚框是一个训练样本。**每个锚框要么标注为背景,要么关联上一个真实边缘框。算法会生成大量的锚框,但真实的边缘框很少,绝大数的锚框都是背景,故导致大量的负样本。

一个例子

假设该矩阵为一个图像,该图像有四个边缘框和九个锚框。每个锚框计算IoU值。跳出最大的IoU值,本例中假设为,则将边缘框3赋值给锚框2作为锚框2的标号。随后将所对应的行、列删除。

同理,选出次最大值,样例中为将边缘框1赋值给锚框7,随后删除对应行、列。重复直至所有边缘框都被赋值。

其中,锚框的x\y\w\h是相对于featuremap或者原图的一个比例,大小为(0,1]。所以从featuremap中确定的锚框可以按比例缩放回原图中。

使用非极大值抑制(NMS)输出

每个锚框预测一个边缘框。每个预测的精度可能不同。NMS可以合并相似的预测:首先选中非背景类的最大预测值,去掉所有其它与他IoU值大于的预测值,即去掉与它高度重合的锚框。重负上述过程直至所有预测被选中或去除。

锚框总结

一类目标检测算法基于锚框进行预测。

首先生成大量锚框并赋予标号,每个锚框作为一个样本进行训练。

在预测时,使用NMS去除冗余的预测。

相关推荐
奈斯。zs1 分钟前
yjs08——矩阵、数组的运算
人工智能·python·线性代数·矩阵·numpy
Melody20501 分钟前
tensorflow-dataset 内网下载 指定目录
人工智能·python·tensorflow
DisonTangor33 分钟前
阿里通义千问开源Qwen2.5系列模型:Qwen2-VL-72B媲美GPT-4
人工智能·计算机视觉
豆浩宇34 分钟前
Halcon OCR检测 免训练版
c++·人工智能·opencv·算法·计算机视觉·ocr
LLSU1338 分钟前
聚星文社AI软件小说推文软件
人工智能
JackieZhengChina41 分钟前
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
人工智能·智能手机
ShuQiHere42 分钟前
【ShuQiHere】 探索数据挖掘的世界:从概念到应用
人工智能·数据挖掘
嵌入式杂谈42 分钟前
OpenCV计算机视觉:探索图片处理的多种操作
人工智能·opencv·计算机视觉
时光追逐者44 分钟前
分享6个.NET开源的AI和LLM相关项目框架
人工智能·microsoft·ai·c#·.net·.netcore
东隆科技44 分钟前
PicoQuant公司:探索铜铟镓硒(CIGS)太阳能电池技术,引领绿色能源革新
人工智能·能源