目标检测2

1. 目标检测基本概念

定义:识别图片中的物体并定位其位置

多任务特性:位置定位 + 类别识别

主要挑战:

目标种类与数量繁多

目标尺度不均

遮挡、噪声等外部环境干扰

2. 主要数据集

VOC数据集

PASCAL VOC挑战赛数据集

4大类,20小类

VOC 2007: 9963张图片,24640个目标

VOC 2012: 23080张图片,54900个目标

COCO数据集

微软标注的MS COCO数据库

20万个图像,80个类别

超过50万个目标标注

平均每个图像7.2个目标

3. 标注格式

三种主要格式:

  1. YOLO(TXT):归一化的(x,y,w,h) - 中心点坐标和宽高

  2. VOC(XML):(Xmin,Ymin,Xmax,Ymax) - 左上角和右下角坐标

  3. COCO(JSON):(Xmin,Ymin,W,H) - 非归一化的左上角坐标和宽高

4. 评估指标

核心指标:

IoU(交并比):边界框正确性度量

Precision(准确率):查准率

Recall(召回率):查全率

P-R曲线:精度-召回率曲线

AP(Average Precision):平均精度

mAP(mean AP):各类别AP的均值

AP计算方法:

11点法:在召回率[0,1]区间取11个点计算平均精度

评估流程:IoU划分TP/FP → 按置信度排序 → 计算P/R → 绘制P-R曲线 → 计算AP

5. 检测方法演进

传统方法:

滑动窗口法:人工设计尺寸,大量冗余操作,定位不准确

深度学习方法:

Anchor-based方法:

使用anchor box描述目标

ratio + scale描述位置和形状

自顶向下,类似滑动窗口穷举

Anchor-free方法:

自底向上,自动生成

无需预设anchor过程

Two-stage算法:

经典发展线:R-CNN → SPP-Net → Fast R-CNN → Faster R-CNN

其他:Cascade R-CNN、Guided Anchoring

One-stage算法:

YOLO系列:v1-v5

SSD系列:SSD、DSSD、FSSD

其他:RefineDet

6. 关键技术

非极大值抑制(NMS):

  1. 设置置信度阈值(通常0.5)

  2. 按置信度降序排列候选框

  3. 选取最高置信度框加入输出列表

  4. 删除与选中框IoU大于阈值的候选框

  5. 重复直到候选框为空

相关推荐
文心快码BaiduComate21 分钟前
百度云与光本位签署战略合作:用AI Agent 重构芯片研发流程
前端·人工智能·架构
风象南1 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia2 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮2 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬3 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia3 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区3 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两6 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪6 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain