【计算机视觉CV:目标检测】--5.目标检测数据集

1.1.数据集介绍

1.2.XML

[2.Open Images Dataset V4](#2.Open Images Dataset V4)

1.VOC

pascal Visual Object Classes 可视化对象类

VOC数据集是目标检测经常用的一个数据集,从05年到12年都会举办比赛（比赛有task： Classification、Detection、Segmentation、PersonLayout）,主要由VOC2007和VOC2012两个数据集

官网地址：http://host.robots.ox.ac.uk/pascal/VOC/

下载地址：https://pjreddie.com/projects/pascal-voc-dataset-mirror/

共 20 个常见物体类别 + 背景（background）：

复制代码

1aeroplane, bicycle, bird, boat, bottle, bus, car, cat, chair,
2cow, diningtable, dog, horse, motorbike, person, pottedplant,
3sheep, sofa, train, tvmonitor

✅ 特点：

多为日常生活中常见物体
允许一张图包含多个类别（多标签）
同一类可出现多个实例（如多人、多车）

1.1.数据集介绍

通常使用较多的为VOC2007数据集，总共9963张图片，需要判定的总物体类别数量为20个对象类别是：

*人：*人
*动物：*鸟，猫，牛，狗，马，羊
*车辆：*飞机，自行车，船，公共汽车，汽车，摩托车，火车
*室内：*瓶子，椅子，餐桌，盆栽，沙发，电视/显示器

Annotations: 图像中的目标标注信息xml格式
JPEGImages:所有图片（VOC2007中总共有9963张，训练有5011张，测试有4952张）

1.2.XML

以下是一个标准的物体检测标记结果格式，这就是用于训练的物体标记结果。其中有几个重点内容是后续在处理图像标记结果需要关注的。

size:
- 图片尺寸大小，宽、高、通道数
object:
- name:被标记物体的名称
- bndbox:标记物体的框大小

如下例子：为000001.jpg这张图片，其中有两个物体被标记

XML 复制代码

<annotation>
    <folder>VOC2007</folder>
    <filename>000001.jpg</filename># 文件名
    <source># 文件来源
        <database>The VOC2007 Database</database>
        <annotation>PASCAL VOC2007</annotation>
        <image>flickr</image>
        <flickrid>341012865</flickrid>
    </source>
    <owner>
        <flickrid>Fried Camels</flickrid>
        <name>Jinky the Fruit Bat</name>
    </owner>
    <size># 文件尺寸，包括宽、高、通道数
        <width>353</width>
        <height>500</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented># 是否用于目标分割
    <object># 真实标记的物体
        <name>dog</name># 目标类别名称
        <pose>Left</pose>
        <truncated>1</truncated># 是否截断，这个目标因为各种原因没有被框完整（被截断了），比如说一辆车有一部分在画外面
        <difficult>0</difficult># 表明这个待检测目标很难识别，有可能是虽然视觉上很清楚，但是没有上下文的话还是很难确认它属于哪个分类，标为difficult的目标在测试评估中一般会被忽略
        <bndbox># bounding-box
            <xmin>48</xmin>
            <ymin>240</ymin>
            <xmax>195</xmax>
            <ymax>371</ymax>
        </bndbox>
    </object>
    <object># 真实标记的第二个物体
        <name>person</name>
        <pose>Left</pose>
        <truncated>1</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>8</xmin>
            <ymin>12</ymin>
            <xmax>352</xmax>
            <ymax>498</ymax>
        </bndbox>
    </object>
</annotation>

2.Open Images Dataset V4

2018年发布了包含在 190 万张图片上针对 600 个类别的 1540 万个边框盒，这也是现有最大的具有对象位置注释的数据集 。这些边框盒大部分都是由专业注释人员手动绘制的，确保了它们的准确性和一致性。

谷歌的数据集类目较多涵盖范围广，但是文件过多，处理起来比较麻烦，所以选择目前使用较多并且已经成熟的pascavoc数据集

3.标注工具

https://blog.csdn.net/qq_58602552/article/details/156903760?spm=1001.2014.3001.5501