垃圾分类检测数据集

一、数据集概览

项目 内容
标注格式 YOLO TXT(已由 Pascal VOC XML 转换)
图像总数 14,761 张(有效,原始 14,964 张去除无图样本)
大类数量 4
细类数量 44
图像格式 JPEG(.jpg)
数据集划分 train / val / test = 7 : 1 : 2
子集 数量
train 10,319 张
val 1,478 张
test 2,964 张

二、目录结构

复制代码
datasets/
├── images/
│   ├── train/              # 训练集图片(10,319 张)
│   ├── val/                # 验证集图片(1,478 张)
│   └── test/               # 测试集图片(2,964 张)
├── labels/
│   ├── train/              # 训练集 YOLO 标注
│   ├── val/                # 验证集 YOLO 标注
│   └── test/               # 测试集 YOLO 标注
├── garbage.yaml            # YOLO 训练配置文件
├── classify_rule.json      # 四大类 → 44 细类的映射规则
├── train_classes.txt       # 44 个细类名称列表(每行一类)
└── README.md

三、垃圾分类体系

依据国内垃圾分类标准,数据集将物品分为 4 个大类 ,共 44 个细类

大类 细类数 细类列表
可回收物 26 充电宝、包、洗护用品、塑料玩具、塑料器皿、塑料衣架、玻璃器皿、金属器皿、快递纸袋、插头电线、旧衣服、易拉罐、枕头、毛绒玩具、鞋、砧板、纸盒纸箱、调料瓶、酒瓶、金属食品罐、金属厨具、锅、食用油桶、饮料瓶、书籍纸张、垃圾桶
厨余垃圾 7 剩饭剩菜、大骨头、果皮果肉、茶叶渣、菜帮菜叶、蛋壳、鱼骨
有害垃圾 3 干电池、软膏、过期药物
其他垃圾 8 一次性快餐盒、污损塑料、烟蒂、牙签、花盆、陶瓷器皿、筷子、污损用纸

四、YOLO 标注格式

每张图片对应一个同名 .txt 文件,每行一个目标框:

复制代码
class_id  x_center  y_center  width  height

所有坐标均归一化[0, 1]class_id 为 0-indexed,对应 train_classes.txt 中的行序号。

示例:

复制代码
6  0.410572  0.421875  0.596188  0.337891

class_id=6 对应 train_classes.txt 第 7 行(塑料器皿),坐标为中心点 + 宽高的归一化值。


五、YOLO 训练配置(garbage.yaml)

复制代码
path: datasets          # 相对项目根目录的数据集路径
train: images/train
val:   images/val
test:  images/test
nc: 44
names:
  - 一次性快餐盒
  - 书籍纸张
  # ... 共 44 类

注意: 训练命令须在项目根目录 下执行,path: datasets 基于当前工作目录解析。


六、快速开始训练

复制代码
# 在项目根目录执行
yolo train data=datasets/garbage.yaml model=weights/yolov8n.pt epochs=100 imgsz=640 batch=16

建议将预训练权重放在 weights/ 目录下以避免重复下载:

  • yolov8n.pt(nano,速度最快)
  • yolov8s.pt(small,精度更高)

训练结果保存在 runs/detect/train*/ 目录。


七、推理后类别映射

模型输出的是 44 个细类,可通过 classify_rule.json 汇总为 4 大类:

复制代码
import json

with open("datasets/classify_rule.json", encoding="utf-8") as f:
    rules = json.load(f)

# 构建细类 → 大类反向索引
label_to_category = {
    label: cat
    for cat, labels in rules.items()
    for label in labels
}

# 示例:label_to_category["饮料瓶"] => "可回收物"
相关推荐
HyperAI超神经2 小时前
在线教程丨华中科大与小红书 hi lab开源dots.mocr,SOTA级OCR模型完美还原文档结构,图形也能转 SVG
人工智能·深度学习·学习·机器学习·gpu·orc·vllm
羊仔AI探索2 小时前
OpenAI反击谷歌,GPT-5.2-Codex无限记忆,突破AI编程新境界!
人工智能·gpt·ai·aigc·ai编程
空空潍2 小时前
Spring AI 实战系列(六):Tool Calling深度实战,让大模型自动调用你的业务接口
java·人工智能·spring
郝学胜-神的一滴2 小时前
张量维度操控心法:从reshape到升维降维,吃透PyTorch形状操作的底层逻辑
人工智能·pytorch·python·深度学习·程序人生·算法·机器学习
极光代码工作室2 小时前
基于AI的学习辅助系统设计
人工智能·机器学习·ai·系统设计
Matrix_112 小时前
论文阅读:中央凹堆叠成像技术
论文阅读·人工智能·计算摄影
RemainderTime2 小时前
基于 Spring AI + DeepSeek:构建AI Agent 企业级服务与底层原理解析
人工智能·后端·spring·ai
草莓熊Lotso2 小时前
2026年4月UU远程副屏功能测评:多设备协同生态再升级
人工智能
平凡而伟大(心之所向)2 小时前
AI重构制造:2026年工业智能体的实战与进化
人工智能·重构·制造