目标检测一阶段模型

目标检测的基本思路:定位localization+识别recognition

  • 一个分支用于做图像分类,即全连接 + Softmax 判断目标类别,和单纯图像分类区别在于这里还另外需要一个「背景」类。
  • 另一个分支用于识别目标位置,即完成回归任务输出四个数字标记包围盒位置(例如中心点横纵坐标和包围盒长宽),该分支输出结果只有在分类分支判断不为「背景」时才使用

一阶段(One Stage )

不需要产生候选框,只需一次提取特征即可实现目标检测。直接将目标框定位的问题转化为回归(Regression)问题处理(Process)。

常见的算法有YOLO、SSD等等。

是怎么等效成回归问题的呢?

两阶段(Two Stages)

首先由算法(algorithm)生成一系列作为样本的候选框,再通过卷积神经网络进行分类。

常见的算法有 R-CNN、Fast R-CNN、Faster R-CNN 等等。

一阶段模型将目标检测看作端到端的回归问题,输入图片,输出五个结果**(x,y,w,h,score)+类别** ,其中score是框的置信度**,即该位置是否包含目标以及包含目标的准确性(IoU)。(x,y,w,h)是相对于Anchor的四个偏移量**

ssd输出

发展历程

目标检测模型对比:

Huang et al,"Speedlaccuracy trade-offs for modern convolutional object detectors", CVPR2017

相关推荐
这张生成的图像能检测吗3 分钟前
(论文速读)MoE-Adapters++: 过动态混合专家适配器实现更有效的视觉语言模型的持续学习
人工智能·自然语言处理·视觉语言模型·持续学习
数字冰雹4 分钟前
数字孪生如何重塑数据中心运维新范式
大数据·人工智能
handuoduo12348 分钟前
SITAN中avp必要性分析
人工智能·算法·机器学习
zl_vslam9 分钟前
SLAM中的非线性优-3D图优化之相对位姿Between Factor右扰动(八)
人工智能·算法·计算机视觉·3d
TextIn智能文档云平台10 分钟前
从散乱资料到智能知识库:基于TextIn与Coze的RAG实战
人工智能·pdf·知识库·rag·coze·文档解析
【建模先锋】11 分钟前
精品数据分享 | 锂电池数据集(七)同济大学电池数据集
深度学习·锂电池剩余寿命预测·锂电池数据集·寿命预测·数据集分享
C嘎嘎嵌入式开发11 分钟前
deepseek-r1大模型的本地部署
人工智能·python·神经网络·机器学习
翔云 OCR API20 分钟前
赋能文档的数字化智能处理:通用文字/文档/合同识别接口
开发语言·人工智能·python·计算机视觉·ocr
_codemonster22 分钟前
AI大模型入门到实战系列(五)上下文嵌入向量(contextualized embedding)
人工智能·深度学习·embedding
.又是新的一天.27 分钟前
AI+软件测试04(AI应用技巧)
软件测试·人工智能·ai+软件测试