PCB缺陷检测数据集 xml 可转yolo格式 ,共10688张图片

PCB缺陷检测数据集(yolov5,v7,v8) 数据集总共有两个文件夹,一个是pcb整体标注,一个是pcb部分截图。 整体标注有6个分类,开路,短路等都已经标注,标注格式为xml,每个文件夹下有100多张的图片,可转yolo格式,跑过效果很好,北京大学PCB数据集。 第二个是第一个的部分和增强,共10688张图片,多篇pcb论文用的是这个数据集(共6类),训练集和检测集总共有10688张,看最后一张图。标注格式为txt,可直接yolov5,v7,v8检测。

项目概述

本数据集是一个专门用于印刷电路板(PCB)缺陷检测的数据集,包含两个主要部分:一个是整体标注的PCB图像,另一个是部分截图和增强后的图像。整体标注部分有6个分类,包括开路、短路等常见缺陷,并且已经使用XML格式进行了标注。第二个部分是对第一个部分的部分截图和增强处理,共有10688张图像,标注格式为YOLO格式(txt文件),可以直接用于YOLOv5、YOLOv7和YOLOv8模型的训练和检测。

数据集特点

  • 高质量标注:所有标注数据经过处理,确保了标注质量。
  • 多样化类别:涵盖六类常见的PCB缺陷。
  • 多用途:适用于多种目标检测任务,特别是涉及PCB缺陷检测的应用。
  • 易于使用:提供了详细的说明文档和预处理好的标注文件,方便用户快速上手。
  • 学术认可:多篇PCB相关论文使用了该数据集,具有较高的学术价值和实际应用价值。

数据集结构

PCB_Defect_Detection_Dataset/
├── full_boards/                         # 整体标注的PCB图像
│   ├── images/                          # 图像文件夹
│   │   ├── train/                       # 训练集图像
│   │   ├── val/                         # 验证集图像
│   │   └── test/                        # 测试集图像
│   ├── annotations/                     # 标注文件夹 (XML格式)
│   │   ├── train/                       # 训练集标注
│   │   ├── val/                         # 验证集标注
│   │   └── test/                        # 测试集标注
├── partial_and_augmented/               # 部分截图和增强后的图像
│   ├── images/                          # 图像文件夹
│   │   ├── train/                       # 训练集图像
│   │   ├── val/                         # 验证集图像
│   │   └── test/                        # 测试集图像
│   ├── labels/                          # 标注文件夹 (YOLO格式)
│   │   ├── train/                       # 训练集标注
│   │   ├── val/                         # 验证集标注
│   │   └── test/                        # 测试集标注
├── README.md                            # 项目说明文档
└── data.yaml                            # 数据集配置文件

数据集内容

  • 总数据量
    • 整体标注的PCB图像:每个文件夹下约100多张图像。
    • 部分截图和增强后的图像:共10688张图像。
  • 标注格式
    • 整体标注:XML格式。
    • 部分截图和增强:YOLO格式(txt文件)。
  • 标注对象:各类PCB缺陷的位置。
  • 类别及数量
类别名 标注个数
开路 (Open Circuit) 具体数量
短路 (Short Circuit) 具体数量
缺失元件 (Missing Component) 具体数量
错误元件 (Wrong Component) 具体数量
裂纹 (Crack) 具体数量
污染 (Contamination) 具体数量
  • 总计
    • 图像总数:整体标注约600张,部分截图和增强10688张
    • 标注总数:具体数量根据实际情况而定
    • 总类别数 (nc):6类

使用说明

  1. 环境准备

    • 确保安装了Python及其相关库(如torchopencv-pythonmatplotlib等)。

    • 下载并解压数据集到本地目录。

    • 安装YOLOv5、YOLOv7或YOLOv8所需的依赖项:

      复制代码
      git clone https://github.com/ultralytics/yolov5
      cd yolov5
      pip install -r requirements.txt
      
  2. 加载数据集

    • 可以使用常见的编程语言(如Python)来加载和处理数据集。
    • 示例代码如下:

    import os
    import xml.etree.ElementTree as ET
    import pandas as pd
    from pathlib import Path
    from yolov5.utils.datasets import LoadImages, LoadImagesAndLabels
    from yolov5.models.experimental import attempt_load
    from yolov5.utils.general import non_max_suppression, scale_coords
    from yolov5.utils.torch_utils import select_device
    import cv2
    import numpy as np

    定义数据集路径

    dataset_path = 'PCB_Defect_Detection_Dataset'

    加载整体标注的图像和标注

    def load_full_boards(folder):
    images_folder = os.path.join(dataset_path, 'full_boards', 'images', folder)
    annotations_folder = os.path.join(dataset_path, 'full_boards', 'annotations', folder)

     dataset = []
     for image_file in os.listdir(images_folder):
         if image_file.endswith('.jpg') or image_file.endswith('.png'):
             image_path = os.path.join(images_folder, image_file)
             annotation_path = os.path.join(annotations_folder, image_file.replace('.jpg', '.xml').replace('.png', '.xml'))
             
             tree = ET.parse(annotation_path)
             root = tree.getroot()
             labels = []
             for obj in root.findall('object'):
                 name = obj.find('name').text
                 bndbox = obj.find('bndbox')
                 xmin = int(bndbox.find('xmin').text)
                 ymin = int(bndbox.find('ymin').text)
                 xmax = int(bndbox.find('xmax').text)
                 ymax = int(bndbox.find('ymax').text)
                 labels.append([name, xmin, ymin, xmax, ymax])
             
             dataset.append({
                 'image_path': image_path,
                 'labels': labels
             })
     
     return dataset
    

    加载部分截图和增强后的图像和标注

    def load_partial_and_augmented(folder):
    images_folder = os.path.join(dataset_path, 'partial_and_augmented', 'images', folder)
    labels_folder = os.path.join(dataset_path, 'partial_and_augmented', 'labels', folder)

     dataset = []
     for image_file in os.listdir(images_folder):
         if image_file.endswith('.jpg') or image_file.endswith('.png'):
             image_path = os.path.join(images_folder, image_file)
             label_path = os.path.join(labels_folder, image_file.replace('.jpg', '.txt').replace('.png', '.txt'))
             
             with open(label_path, 'r') as f:
                 labels = [line.strip().split() for line in f.readlines()]
             
             dataset.append({
                 'image_path': image_path,
                 'labels': labels
             })
     
     return dataset
    

    示例:加载整体标注的训练集

    full_boards_train_dataset = load_full_boards('train')
    print(f"Number of training images (full boards): {len(full_boards_train_dataset)}")

    示例:加载部分截图和增强后的训练集

    partial_and_augmented_train_dataset = load_partial_and_augmented('train')
    print(f"Number of training images (partial and augmented): {len(partial_and_augmented_train_dataset)}")

  3. 模型训练

    • 使用预训练的YOLOv5、YOLOv7或YOLOv8模型进行微调,或者从头开始训练。
    • 示例代码如下(以YOLOv5为例):

    设置设备

    device = select_device('')

    加载预训练模型或从头开始训练

    model = attempt_load('yolov5s.pt', map_location=device) # 或者 'path/to/custom_model.pt'
    model.train()

    数据集配置文件

    data_yaml = 'PCB_Defect_Detection_Dataset/data.yaml'

    训练参数

    hyp = 'yolov5/data/hyps/hyp.scratch.yaml' # 超参数配置文件
    epochs = 100
    batch_size = 16
    img_size = 640

    开始训练

    %cd yolov5
    !python train.py --img {img_size} --batch {batch_size} --epochs {epochs} --data {data_yaml} --weights yolov5s.pt

  4. 模型推理

    • 使用训练好的模型进行推理,并在图像上绘制检测结果。
    • 示例代码如下:

    def detect(image_path, model, device, img_size=640):
    img0 = cv2.imread(image_path)
    img = letterbox(img0, new_shape=img_size)[0]
    img = img[:, :, ::-1].transpose(2, 0, 1) # BGR to RGB, to 3x416x416
    img = np.ascontiguousarray(img)

     img = torch.from_numpy(img).to(device)
     img = img.half() if half else img.float()  # uint8 to fp16/32
     img /= 255.0  # 0 - 255 to 0.0 - 1.0
     if img.ndimension() == 3:
         img = img.unsqueeze(0)
    
     # 推理
     with torch.no_grad():
         pred = model(img, augment=False)[0]
    
     # NMS
     pred = non_max_suppression(pred, 0.4, 0.5, classes=None, agnostic=False)
     for i, det in enumerate(pred):  # 每个图像的检测结果
         if det is not None and len(det):
             det[:, :4] = scale_coords(img.shape[2:], det[:, :4], img0.shape).round()
             for *xyxy, conf, cls in reversed(det):
                 label = f'{model.names[int(cls)]} {conf:.2f}'
                 plot_one_box(xyxy, img0, label=label, color=(0, 255, 0), line_thickness=3)
    
     return img0
    

    示例:检测单张图像

    result_img = detect('path/to/image.jpg', model, device)
    cv2.imshow('Detection Result', result_img)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

  5. 性能评估

    • 使用测试集进行性能评估,计算mAP、召回率、精确率等指标。

    • 可以使用YOLOv5自带的评估脚本:

      复制代码

      bash

      深色版本

      python val.py --data PCB_Defect_Detection_Dataset/data.yaml --weights best.pt --img 640
      

注意事项

  • 数据格式:确保图像文件和标注文件的命名一致,以便正确匹配。
  • 硬件要求:建议使用GPU进行训练和推理,以加快处理速度。如果没有足够的计算资源,可以考虑使用云服务提供商的GPU实例。
  • 超参数调整:根据实际情况调整网络架构、学习率、批次大小等超参数,以获得更好的性能。

应用场景

  • PCB制造:自动检测PCB上的缺陷,提高生产效率和产品质量。
  • 智能监控:结合自动化生产线,实现对PCB的实时监控和预警。
  • 科研教育:用于PCB缺陷检测研究和教学,提高学生和工程师的专业技能。
相关推荐
命里有定数1 天前
Ubuntu问题 - 显示ubuntu服务器上可用磁盘空间 一条命令df -h
服务器·ubuntu·数据集
数据猎手小k2 天前
PCBS:由麻省理工学院和Google联合创建,揭示1.2M短文本间的相似性的大规模图聚类数据集。
机器学习·支持向量机·数据集·聚类·机器学习数据集·ai大模型应用
数据猎手小k5 天前
DAHL:利用由跨越 29 个类别的 8,573 个问题组成的基准数据集,评估大型语言模型在生物医学领域长篇回答的事实准确性。
人工智能·深度学习·语言模型·数据集·机器学习数据集·ai大模型应用
此星光明9 天前
GEE 数据集——美国gNATSGO(网格化国家土壤调查地理数据库)完整覆盖了美国所有地区和岛屿领土的最佳可用土壤信息
javascript·数据库·数据集·美国·数据·gee·土壤
OpenBayes9 天前
OpenBayes 一周速览丨VASP 教程上线!HPC 助力材料计算;AllClear 公共云层去除数据集发布,含超 23k 个全球分布的兴趣区域
人工智能·深度学习·机器学习·自然语言处理·开源·数据集·大语言模型
数据猎手小k12 天前
CulturalBench :一个旨在评估大型语言模型在全球不同文化背景下知识掌握情况的基准测试数据集
数据集·机器学习数据集·ai大模型应用
此星光明13 天前
2016年7月29日至2017年2月21日NASA大气层层析(ATom)任务甲醛(HCHO)、羟基(OH)和OH生产率的剖面积分柱密度
数据集·甲醛·nasa·羟基·密度·剖面·hcho
数据猎手小k14 天前
GS-Blur数据集:首个基于3D场景合成的156,209对多样化真实感模糊图像数据集。
数据集·机器学习数据集·ai大模型应用
HyperAI超神经14 天前
贝式计算的 AI4S 观察:使用机器学习对世界进行感知与推演,最大魅力在于横向扩展的有效性
人工智能·深度学习·机器学习·数据集·ai4s·科研领域·工科
HyperAI超神经16 天前
突破1200°C高温性能极限!北京科技大学用机器学习合成24种耐火高熵合金,室温延展性极佳
人工智能·深度学习·机器学习·数据集·ai4s·材料学·合金