跟李沐学AI:目标检测、锚框

边缘框

用于表示物体的位置,一个边缘框通过四个数字定义:(坐上x, 左上y, 右下x, 右下y)或(左上x, 左上y, 宽, 高)

通常物体检测或目标检测的数据集比图片分类的数据集小很多,因为物体检测数据集标注成本高很多。

目标检测数据集

目标检测数据集一般每行表示一个物体,每行分别有图片文件名、物体类别、边缘框。

COCO是目标检测中常用的数据集:COCO - Common Objects in Context。该数据集包含80类物体、330K张图片以及1.5M个物体

目标检测总结

物体检测或目标检测之别图片中多个物体的类别和位置。

位置常用边缘框表示。

锚框

boudingbox是目标在图像中的真实位置,锚框是算法对目标位置的猜测。

一类目标检测算法是基于锚框。算法首先提出多个锚框,随后算法预测每个锚框内是否含有我们需要检测的物体,如果含有,预测这个锚框到真实边缘框的偏移。

IoU-交并比

IoU用来计算两个框之间的相似度。

交并比为0表示两个框之间无重叠,1则表示完全重合。 公式表示如下:

赋予锚框标号

**每个锚框是一个训练样本。**每个锚框要么标注为背景,要么关联上一个真实边缘框。算法会生成大量的锚框,但真实的边缘框很少,绝大数的锚框都是背景,故导致大量的负样本。

一个例子

假设该矩阵为一个图像,该图像有四个边缘框和九个锚框。每个锚框计算IoU值。跳出最大的IoU值,本例中假设为,则将边缘框3赋值给锚框2作为锚框2的标号。随后将所对应的行、列删除。

同理,选出次最大值,样例中为将边缘框1赋值给锚框7,随后删除对应行、列。重复直至所有边缘框都被赋值。

其中,锚框的x\y\w\h是相对于featuremap或者原图的一个比例,大小为(0,1]。所以从featuremap中确定的锚框可以按比例缩放回原图中。

使用非极大值抑制(NMS)输出

每个锚框预测一个边缘框。每个预测的精度可能不同。NMS可以合并相似的预测:首先选中非背景类的最大预测值,去掉所有其它与他IoU值大于的预测值,即去掉与它高度重合的锚框。重负上述过程直至所有预测被选中或去除。

锚框总结

一类目标检测算法基于锚框进行预测。

首先生成大量锚框并赋予标号,每个锚框作为一个样本进行训练。

在预测时,使用NMS去除冗余的预测。

相关推荐
声网7 分钟前
B 站推进视频播客战略,「代号 H」AI创作工具同步研发;工业级开源记忆操作系统 MemOS,支持模型持续进化和自我更新丨日报
人工智能
神经星星14 分钟前
专治AI审稿?论文暗藏好评提示词,谢赛宁呼吁关注AI时代科研伦理的演变
人工智能·深度学习·机器学习
想要成为计算机高手18 分钟前
4. isaac sim4.2 教程-Core API-Hello robot
人工智能·python·机器人·英伟达·isaac sim·仿真环境
倔强的小石头_26 分钟前
AI 在生活中的应用:深度解析与技术洞察
人工智能
新加坡内哥谈技术31 分钟前
LLM探索的时代
人工智能
YFJ_mily1 小时前
2025第二届机电一体化、机器人与控制系统国际会议(MRCS2025)即将来袭
大数据·人工智能·机器人·机电一体化
lucky_lyovo1 小时前
深度学习--tensor(创建、属性)
人工智能·深度学习
说私域1 小时前
淘宝直播与开源链动2+1模式AI智能名片S2B2C商城小程序的融合发展研究
人工智能·小程序·开源
陈敬雷-充电了么-CEO兼CTO1 小时前
复杂任务攻坚:多模态大模型推理技术从 CoT 数据到 RL 优化的突破之路
人工智能·python·神经网络·自然语言处理·chatgpt·aigc·智能体
阿维同学1 小时前
自动驾驶关键算法深度研究
人工智能·算法·自动驾驶