目标检测基础初步学习

目标检测(Object Detection)

目标检测任务说明

在动手学习深度学习中对目标检测任务有如下的描述。

图像分类任务中,我们假设图像中只有一个主要物体对象,我们只关注如何识别其类别。 然而,很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。 在计算机视觉里,我们将这类任务称为目标检测(object detection)或目标识别(object recognition)

在给定的一张目标检测的图片中,我们可以看到几个重要的元素,彩色的框,类别标签,及其它的预测值。从而引出了目标检测中几个重要的概念信息的说明

  1. 类别标签 ( Category label):在图中指的是car person dog horse等几个类别的说明。
  2. 置信度得分 (Confidence score):在图中指的是对于每个类别标签的预测分数。
  3. 边界框(Bounding box):是指对于每个类别的物体所框选的位置。

通过边界框给出了物体的相关位置信息

我们通常使用边界框(bounding box)来描述对象的空间位置。 边界框是矩形的,由矩形左上角的以及右下角的x和y 坐标决定。 另一种常用的边界框表示方法是边界框中心的轴坐标(x,y)以及框的宽度和高度

一个边缘框可以通过4个数字定义

  • (左上x, 左上y,右下x,右下y)
  • (左上x, 左上y,宽,高)


(60,65,378,579):在图中对应向右为x轴正方向,向下为y轴正方向

下面的四个图依次介绍了计算机视觉中常见的四个任务,依次包括了

  • Classification
  • Classification+ Localization
  • Object Detection
  • instance segmetation(实例分割)

定位和检测:

  • 定位是找到检测图像中带有一个给定标签的单个目标
  • 检测是找到图像中带有给定标签的所有目标

目标检测常用数据集

PASCAL VOC数据集

PASCALVOC挑战赛在2005年至2012年间展开。

PASCAL VOC 2007:9963张图像, 24640个标注; PASCAL VOC 2012:11530 张图像,27450个标注。

该数据集有20个分类:

  • Person: person

  • Animal: bird, cat, cow, dog,horse, sheep

  • Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

  • Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

官网地址:http://host.robots.ox.ac.uk/pascal/VOC/

MS COCO数据集

MS COCO的全称是Microsoft Common Objects in Context,起源于是微软于2014年出资标注的MicrosoftCOcO数据集,与lmageNet 竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。

在lmageNet竞赛停办后,COcO竞赛就成为是当前目标识别、检测等领域的一个最权威、最重要的标杆,也是目前该领域在国际上唯一能汇集Google、微软 Facebook以及国内外众多顶尖院校和优秀创新企业共同参与的大赛。

COCO ( Common Objects in Context) 数据集包含20万个图像: 11.5万多张训练集图像,5千张验证集图像,2万多张测试集图像,80个类别中有超过50方个自标标注。平均每个图像的目标数为7.2

官网地址:https://cocodataset.org/#home

目标检测的性能指标

检测精度

  • Precision,Recall,F1score
  • loU (Intersection over Union)
  • P-R curve (Precison-Recall curve)
  • AP(AveragePrecision)
  • mAp(mean Average Precision)

检测速度

  • 前传耗时
  • 每秒帧数FPS(FramesPerSecond)
  • 浮点运算量(FLOPS)
相关推荐
美狐美颜sdk43 分钟前
跨平台直播美颜SDK集成实录:Android/iOS如何适配贴纸功能
android·人工智能·ios·架构·音视频·美颜sdk·第三方美颜sdk
DeepSeek-大模型系统教程1 小时前
推荐 7 个本周 yyds 的 GitHub 项目。
人工智能·ai·语言模型·大模型·github·ai大模型·大模型学习
郭庆汝1 小时前
pytorch、torchvision与python版本对应关系
人工智能·pytorch·python
小雷FansUnion3 小时前
深入理解MCP架构:智能服务编排、上下文管理与动态路由实战
人工智能·架构·大模型·mcp
资讯分享周3 小时前
扣子空间PPT生产力升级:AI智能生成与多模态创作新时代
人工智能·powerpoint
叶子爱分享4 小时前
计算机视觉与图像处理的关系
图像处理·人工智能·计算机视觉
鱼摆摆拜拜4 小时前
第 3 章:神经网络如何学习
人工智能·神经网络·学习
一只鹿鹿鹿4 小时前
信息化项目验收,软件工程评审和检查表单
大数据·人工智能·后端·智慧城市·软件工程
张较瘦_5 小时前
[论文阅读] 人工智能 | 深度学习系统崩溃恢复新方案:DaiFu框架的原位修复技术
论文阅读·人工智能·深度学习
cver1235 小时前
野生动物检测数据集介绍-5,138张图片 野生动物保护监测 智能狩猎相机系统 生态研究与调查
人工智能·pytorch·深度学习·目标检测·计算机视觉·目标跟踪