目标检测-One Stage-YOLO v3

文章目录

  • 前言
  • [一、YOLO v3的网络结构和流程](#一、YOLO v3的网络结构和流程)
  • [二、YOLO v3的创新点](#二、YOLO v3的创新点)
  • 总结

前言

根据前文目标检测-One Stage-YOLOv2可以看出YOLOv2的速度和精度都有相当程度的提升,但是精度仍较低,YOLO v3基于一些先进的结构和思想对YOLO v2做了一些改进。


提示:以下是本篇文章正文内容,下面内容和可供参考

一、YOLO v3的网络结构和流程

  1. 将影像输入卷积网络(DarkNet53)+FPN得到多尺度特征图

ps:Darknet53,由Darknet19结合Resnet而成

  1. 利用anchor机制获取预选框
  2. 将上一步得到的anchor输入不同的分类和边框回归器
  3. 使用非极大值抑制NMS去除冗余窗口

二、YOLO v3的创新点

具体来说,没有什么大的创新点,但是结合先进的思想改进了YOLOv2:

  • 将backbone的网络结构进行了改进,将Darknet19结合Resnet(残差块轻量化),变成了Darknet53(Darknet53的性能与ResNet152相似,速度快2倍)
  • 引入多尺度特征图(feature maps),每个尺寸的feature map各司其职,13 × 13负责大目标物体,26 × 26负责中目标物体和52 × 52负责小目标物体。原因很简单,越深层的信息越抽象,越浅层的越粗糙,浅层还保留着小物体的信息,深层就不一定还在了。

ps:和SSD一样,感受野小的feature map检测小目标(较小的scale),使用感受野大的feature map检测更大目标(较大的scale),但加入了特征融合机制。

  • 类别预测方面使用多个逻辑回归分类器(logistic)代替softmax分类器,以此来确定预测框属于多类的可能
  1. softmax(全部类别的概率之和为1)假定全部类别是互斥的,即如果预测框属于类别A,那么就不可能属于类别B
  2. 但面对非互斥类别集时,softmax不能判别多类别归属,比如预测框可能既属于"动物",又属于"狗",尤其对于Open Images这种数据集,目标可能有重叠的类别标签
  3. 因此yolov3使用不同的logistic回归分类器(数量和类别数对应)检验bbox为每个类别的置信度(objectness score),如果超过一定阈值,就可认为bbox属于某个类别,即可实现多类别分类

总结

YOLOv3-320(28.2mAP)与SSD321一样准确(28.0mAP[.5, .95]),但速度快三倍(61ms -> 22ms)

在mAP50上(57.9),YOLOv3-608和当时的SOTA(RetinaNet-101-800)精度一样(57.5),但要快3.8倍(198ms -> 51ms)

相关推荐
List<String> error_P14 分钟前
蓝桥杯最后几天冲刺:暴力大法(一)
算法·职场和发展·蓝桥杯
小毅&Nora22 分钟前
【人工智能】【大模型】大模型“全家桶”到“精兵简政”:企业AI落地的理性进化之路
人工智能·大模型·平安科技
KaneLogger38 分钟前
如何把AI方面的先发优势转化为结构优势
人工智能·程序员·架构
冬奇Lab1 小时前
一天一个开源项目(第67篇):OpenClaw-Admin - AI Agent 网关的可视化管理驾驶舱
人工智能·开源·资讯
飞哥数智坊1 小时前
【大纲】TRAE AI 编程入门第四讲——打破编程界限的智能体
人工智能·ai编程·trae
冬奇Lab1 小时前
5种来自谷歌的Agent Skill设计模式:减少Token浪费,精准触发正确行为
人工智能·agent
飞哥数智坊1 小时前
【大纲】TRAE AI 编程入门第三讲——突破边界的 Rules、Memory、MCP、Skills
人工智能·ai编程·trae
桃地睡不着1 小时前
ai安全工具:CyberStrikeAI安装部署与使用
人工智能·安全·渗透测试
Cosolar1 小时前
大模型工具调用输出JSON:凭什么能保证不出错?
人工智能·面试·llm
zxsz_com_cn1 小时前
设备预测性维护模型构建详解与实例:中讯烛龙如何用“数据+算法”破解故障预测难题
人工智能·深度学习·机器学习