数据集是计算机视觉技术研发的核心支撑资源,贯穿算法训练、性能验证与效果评估全流程,兼具全面性、适配性与权威性。它囊括图像分类、目标检测、实例分割、语义分割
等多类任务导向的样本集,覆盖自然场景、工业制造、医疗影像、遥感监测等多元应用领域。优质数据集具备样本规模庞大、标注精度严苛、训练验证测试子集划分科学的特点,既是驱动深度学习算法创新迭代的关键基石,也为人工智能产品落地与前沿学术研究提供坚实保障。
红外裂缝目标检测数据集
数据集背景
在红外建筑生活垃圾目标检测数据集研发与应用场景中,该数据集标注精准、格式兼容性强、样本覆盖全面,贴合红外无人机建筑垃圾分类巡检、城市环卫夜间排查、工地建筑垃圾清运监管、社区生活垃圾夜间整治的实际技术需求,背景意义突出且应用价值明确:红外成像技术不受光照条件限制、可穿透轻微粉尘与薄雾、抗环境光干扰,弥补了可见光成像在夜间、逆光、清晨薄雾、工地粉尘等场景下建筑生活垃圾辨识度低、易被建筑废料、植被杂物、光影变化干扰的监测短板,而本数据集聚焦建筑生活垃圾核心目标,精准覆盖brick(砖块)、concrete(混凝土)、metal(金属)、mixture(混合物)、paper-and-cardboard(纸和纸板)、plastic(塑料)、tiles-and-ceramic(瓷砖和陶瓷)、wood(木材)8类关键垃圾对象,针对性解决红外建筑生活垃圾场景下垃圾特征模糊、背景杂波(建筑废料、泥土、植被)干扰强、细小垃圾易遗漏、垃圾类别判定难的行业痛点,为红外建筑生活垃圾检测算法的研发、迭代与落地提供核心标准化数据支撑。红外建筑生活垃圾监测场景中,该数据集为垃圾目标检测模型训练提供标准化样本支撑,依托VOC+YOLO的通用适配格式,可快速适配YOLO系列、Faster R-CNN、U-Net等各类主流检测与分割算法,解决红外成像下垃圾与建筑背景、地面环境灰度对比度低、垃圾轮廓特征不明显、细小垃圾(纸和纸板、塑料碎片)难识别、夜间/逆光环境下垃圾边界模糊、同类垃圾(不同材质砖块、塑料)易混淆的样本匮乏问题,检测重点聚焦红外场景下8类建筑生活垃圾的精准定位、垃圾轮廓提取、垃圾类别判定,以及垃圾堆积面积、堆积密度的量化识别,有效应对夜间微光、轻微粉尘遮挡、远距离垃圾、建筑施工场景复杂背景、垃圾局部遮挡(被泥土、杂草覆盖)等核心检测难题,助力建筑施工监管、城市环卫巡检、社区垃圾整治、建筑垃圾资源化回收等场景实现全时段自动化监测,替代人工完成建筑生活垃圾排查、垃圾分类识别、垃圾堆积预警、清运监管辅助等工作,大幅提升垃圾监测效率与垃圾分类识别准确率,降低人工巡检成本与环境治理管控风险。
数据集信息
数据集规模
jpg/jpeg/png文件总个数
"图片总数量":1341
json/txt/xml文件总个数
"标注总数量":1341
类别名称总数量
"标签总数量":8
数据集划分
数据划分
"总数量 1341"
"训练集 939"
"验证集 268"
"测试集 134"
标注类别名称
'brick'
'concrete'
'metal'
'mixture'
'paper-and-cardboard'
'plastic'
'tiles-and-ceramic'
'wood'
数据集格式
图片预览
标注示例
数据集格式
YOLO 格式
yolo_dataset/
├── images/ # 存放所有图片文件
│ ├── train/ # 训练集图片
│ │ ├── 000001.jpg
│ │ ├── 000002.jpg
│ │ └── ...
│ ├── val/ # 验证集图片
│ │ ├── 000001.jpg
│ │ ├── 000002.jpg
│ │ └── ...
│ └── test/ # 测试集图片
│ ├── 000001.jpg
│ ├── 000002.jpg
│ └── ...
├── labels/ # 存放所有TXT标注文件
│ ├── train/ # 训练集标注
│ │ ├── 000001.txt
│ │ ├── 000002.txt
│ │ └── ...
│ ├── val/ # 验证集标注
│ │ ├── 000001.txt
│ │ ├── 000002.txt
│ │ └── ...
│ └── test/ # 测试集标注
│ ├── 000001.txt
│ ├── 000002.txt
│ └── ...
├── data.yaml # YOLO配置文件
└── classes.txt # 类别名称文件(可选)
"目录说明"
- images/
- 存放所有JPG/JPEG/PNG格式的图片文件
- 按数据集划分分为train、val、test三个子目录
- 图片文件名建议采用6位数字编号(如000001.jpg)
- labels/
- 存放所有TXT标注文件,每个TXT文件对应一张图片
- TXT文件命名与图片文件完全一致(仅扩展名不同)
- 按数据集划分分为train、val、test三个子目录
- 每个TXT文件包含以下信息:
- 每行表示一个目标的标注信息
- 格式为:class_id x_center y_center width height
- 所有坐标和尺寸均已归一化(取值范围0-1)
- data.yaml
- YOLO模型训练的配置文件
- 包含数据集路径、类别数、类别名称等信息
- classes.txt(可选)
- 存放类别名称列表,每行一个类别
- 与data.yaml中的类别名称保持一致
"示例文件内容"
TXT标注文件示例(000001.txt)
0 0.2 0.3 0.15 0.2
- 0:类别索引(对应data.yaml中的第一个类别)
- 0.2:目标框中心点横坐标(归一化后)
- 0.3:目标框中心点纵坐标(归一化后)
- 0.15:目标框宽度(归一化后)
- 0.2:目标框高度(归一化后)
"data.yaml配置文件示例"
path: YOLO
train: images/train
val: images/val
test: images/test
nc: 1
names: ['class1']
"classes.txt文件示例"
class1
Pascal VOC 格式
VOC/
├── Annotations/ # 存放所有XML标注文件
│ ├── 000001.xml
│ ├── 000002.xml
│ └── ...
├── ImageSets/ # 存放数据集划分文件
│ └── Main/
│ ├── train.txt # 训练集图片列表
│ ├── val.txt # 验证集图片列表
│ ├── test.txt # 测试集图片列表
│ └── trainval.txt # 训练+验证集图片列表
├── JPEGImages/ # 存放所有JPG图片文件
│ ├── 000001.jpg
│ ├── 000002.jpg
│ └── ...
├── SegmentationClass/ # 可选:存放语义分割标注(如果有)
│ └── ...
└── SegmentationObject/ # 可选:存放实例分割标注(如果有)
└── ...
"目录说明"
"1.Annotations/"
- 存放所有XML标注文件,每个XML文件对应一张图片
- XML文件命名与图片文件完全一致(仅扩展名不同)
- 每个XML文件包含以下信息:
- 图片基本信息(文件名、尺寸、通道数)
- 目标标注信息(类别名称、边界框坐标、姿态、遮挡状态等)
"2.ImageSets/Main/"
- 存放数据集划分文件,每个文件包含对应集合的图片文件名(不含扩展名)
- 常见划分文件:
- train.txt:训练集图片列表
- val.txt:验证集图片列表
- test.txt:测试集图片列表
- trainval.txt:训练+验证集图片列表
"3.JPEGImages/"
- 存放所有JPG/JPEG/PNG格式的图片文件
- 图片文件名建议采用6位数字编号(如000001.jpg)
数据集标注工具
离线标注工具Labelme
conda create -n labelme python=3.9
conda activate labelme
pip install pyqt
pip install pillow
pip install labelme
labelme
在线标注工具MakeSense
在线地址
注意事项
在这里要再次特别声明:本数据集不对训练的模型或者权重文件精度作任何保证。由于数据本身的局限性、标注的误差以及模型训练过程中的各种不确定因素,最终训练出的模型精度可能会有所差异。使用者在使用这个数据集进行模型训练时,需要充分考虑到这些因素,自行评估模型的性能和可靠性,不要过分依赖数据集来保证模型的高精度。同时,在使用过程中,如果发现数据存在问题或者有任何疑问,欢迎随时与我们交流反馈。