《论文阅读18》 SSD: Single Shot MultiBox Detector

一、论文


二、论文概要

SSD网络是作者Wei Liu在ECCV 2016上发表的论文。对于输入尺寸300x300的网络 使用Nvidia Titan X在VOC 2007测试集上达到74.3%mAP以及59FPS,对于512x512 的网络,达到了76.9%mAP超越当时最强的Faster RCNN(73.2%mAP)。

三、论文详述

Faster RCNN存在的问题:对小目标检测效果很差;模型大,检测速度较慢。

Backbone使用的是VGG-16; 在不同的卷积层进行预测

SSD是One-stage的一个代表

"Backbone" 是在深度学习中常用的一个术语,特别是在卷积神经网络(CNN)中。它指的是网络架构中用于提取特征的主要部分,通常是由多个卷积层和池化层构成的层次结构。

  • 在卷积神经网络中,不同的层级会逐步从原始输入数据中提取越来越高级别的特征。
  • Backbone就是负责这个特征提取的部分,它的输出可以被用于各种任务,例如分类、检测、分割等。

在图像处理任务中,一个经典的例子是在图像分类任务中使用的卷积神经网络(如VGG、ResNet、Inception等)。这些网络通常包含多个卷积层和池化层,**构成了整个网络的主干部分,即Backbone。**后续的全连接层或其他特定任务的层级则可以根据需要在Backbone之后添加。

总之,"Backbone" 是指在深度学习网络中负责从原始输入数据中提取特征的主要部分,通常由卷积层、池化层等组成。它对于构建有效的深度学习模型以及在各种计算机视觉任务中取得良好效果非常重要。
"one-stage" 和 "two-stage" 是用来描述目标检测算法中的两种不同的框架或方法。这两种方法针对物体检测问题采用了不同的策略。

  1. **One-Stage 检测器**:
  • "One-stage" 指的是在单个阶段内直接预测目标的边界框和类别。

  • 这类算法通常更简单,速度较快,因为在一个网络中同时完成了定位和分类任务。

  • 一些典型的 "one-stage" 检测器包括 YOLO(You Only Look Once)和 SSD(Single Shot MultiBox Detector)。

  1. **Two-Stage 检测器**:
  • "Two-stage" 指的是目标检测分为两个阶段:生成候选框(region proposals)和对这些候选框进行分类和定位。

  • 首先在第一个阶段生成一组可能包含目标的候选框,然后在第二个阶段对这些候选框进行进一步的分类和边界框调整。

  • 这类算法通常在准确性上表现较好,但可能相对复杂且计算成本较高。

  • 一个典型的 "two-stage" 检测器是 Faster R-CNN。

选择使用哪种方法取决于具体的应用需求,速度要求以及模型的准确性。"One-stage" 检测器适用于实时性要求较高的应用,而 "two-stage" 检测器在对于准确性有更高要求的场景中表现更好。近年来,许多研究工作致力于改进这两种方法,以在速度和准确性之间取得更好的平衡。

xml标注(记录左上角和右下角坐标):

COCO和YOLOv5标注(记录的是中心点,w, h归一化的坐标)

四、论文实践

相关推荐
乌旭4 小时前
AI芯片混战:GPU vs TPU vs NPU的算力与能效博弈
人工智能·pytorch·python·深度学习·机器学习·ai·ai编程
神经星星8 小时前
【vLLM 学习】API 客户端
数据库·人工智能·机器学习
KangkangLoveNLP9 小时前
深度探索:策略学习与神经网络在强化学习中的应用
人工智能·深度学习·神经网络·学习·机器学习·自然语言处理
菜小包10 小时前
什么是AI Agent ?在并行科技MAAS平台上怎么搭建自己的Agent?
人工智能·机器学习
pythonSuperman10 小时前
Correlation Matrix of Model Logits
人工智能·深度学习·机器学习
神经星星11 小时前
在线教程丨字节开源 InfiniteYou 图像生成框架,实现高保真面部特征迁移
人工智能·深度学习·机器学习
ayiya_Oese11 小时前
[环境配置] 2. 依赖库安装
人工智能·python·深度学习·神经网络·目标检测·机器学习·计算机视觉
BFT白芙堂11 小时前
Franka 机器人x Dexterity Gen引领遥操作精细任务新时代
人工智能·算法·机器学习·具身智能·franka机器人·科研机器人·机器人解决方案
红队it12 小时前
【机器学习算法】基于python商品销量数据分析大屏可视化预测系统(完整系统源码+数据库+开发笔记+详细启动教程)✅
python·机器学习·数据分析
思陌Ai算法定制12 小时前
图神经网络+多模态:视频动作分割的轻量高效新解法
人工智能·深度学习·神经网络·机器学习·音视频·医学影像