目录
[2.Open Images Dataset V4](#2.Open Images Dataset V4)
1.VOC
- pascal Visual Object Classes 可视化对象类

VOC数据集是目标检测经常用的一个数据集,从05年到12年都会举办比赛(比赛有task: Classification、Detection、Segmentation、PersonLayout),主要由VOC2007和VOC2012两个数据集
官网地址:http://host.robots.ox.ac.uk/pascal/VOC/
下载地址:https://pjreddie.com/projects/pascal-voc-dataset-mirror/

共 20 个常见物体类别 + 背景(background):
1aeroplane, bicycle, bird, boat, bottle, bus, car, cat, chair,
2cow, diningtable, dog, horse, motorbike, person, pottedplant,
3sheep, sofa, train, tvmonitor
✅ 特点:
- 多为日常生活中常见物体
- 允许一张图包含多个类别(多标签)
- 同一类可出现多个实例(如多人、多车)
1.1.数据集介绍
通常使用较多的为VOC2007数据集,总共9963张图片,需要判定的总物体类别数量为20个对象类别是:
- *人:*人
- *动物:*鸟,猫,牛,狗,马,羊
- *车辆:*飞机,自行车,船,公共汽车,汽车,摩托车,火车
- *室内:*瓶子,椅子,餐桌,盆栽,沙发,电视/显示器

- Annotations: 图像中的目标标注信息xml格式
- JPEGImages:所有图片(VOC2007中总共有9963张,训练有5011张,测试有4952张)

1.2.XML
以下是一个标准的物体检测标记结果格式,这就是用于训练的物体标记结果。其中有几个重点内容是后续在处理图像标记结果需要关注的。
- size:
- 图片尺寸大小,宽、高、通道数
- object:
- name:被标记物体的名称
- bndbox:标记物体的框大小
如下例子:为000001.jpg这张图片,其中有两个物体被标记

XML
<annotation>
<folder>VOC2007</folder>
<filename>000001.jpg</filename># 文件名
<source># 文件来源
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
<flickrid>341012865</flickrid>
</source>
<owner>
<flickrid>Fried Camels</flickrid>
<name>Jinky the Fruit Bat</name>
</owner>
<size># 文件尺寸,包括宽、高、通道数
<width>353</width>
<height>500</height>
<depth>3</depth>
</size>
<segmented>0</segmented># 是否用于目标分割
<object># 真实标记的物体
<name>dog</name># 目标类别名称
<pose>Left</pose>
<truncated>1</truncated># 是否截断,这个目标因为各种原因没有被框完整(被截断了),比如说一辆车有一部分在画外面
<difficult>0</difficult># 表明这个待检测目标很难识别,有可能是虽然视觉上很清楚,但是没有上下文的话还是很难确认它属于哪个分类,标为difficult的目标在测试评估中一般会被忽略
<bndbox># bounding-box
<xmin>48</xmin>
<ymin>240</ymin>
<xmax>195</xmax>
<ymax>371</ymax>
</bndbox>
</object>
<object># 真实标记的第二个物体
<name>person</name>
<pose>Left</pose>
<truncated>1</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>8</xmin>
<ymin>12</ymin>
<xmax>352</xmax>
<ymax>498</ymax>
</bndbox>
</object>
</annotation>
2.Open Images Dataset V4

2018年发布了包含在 190 万张图片上针对 600 个类别的 1540 万个边框盒,这也是现有最大的具有对象位置注释的数据集 。这些边框盒大部分都是由专业注释人员手动绘制的,确保了它们的准确性和一致性。
谷歌的数据集类目较多涵盖范围广,但是文件过多,处理起来比较麻烦,所以选择目前使用较多并且已经成熟的pascavoc数据集
3.标注工具
https://blog.csdn.net/qq_58602552/article/details/156903760?spm=1001.2014.3001.5501