关于目标检测中按照比例将数据集随机划分成训练集和测试集

1. 前言

在做目标检测任务的时候,不少网上的数据,没有划分数据集,只是将数据和标签放在不同的文件夹下,没有划分数据集

虽然代码简单,每次重新编写还是颇为麻烦,这里记录一下

如下,有的数据集这样摆放:

这里的py文件是划分代码,和rawDataSet 放在相同目录下

关于图像分类任务划分数据集:关于图像分类任务中划分数据集,并且生成分类类别的josn字典文件

关于xml文件生成相应的类别json字典文件:

目标检测篇:如何根据xml标注文件生成类别classes的json文件

目标检测数据的可视化:

xml : 关于目标检测任务中,XML(voc格式)标注文件的可视化

txt : 关于目标检测任务中,YOLO(txt格式)标注文件的可视化

2. 完整代码

如下:

python 复制代码
import random
import os
import shutil
from tqdm import tqdm


# 划分数据函数
def split_data(root,test_rate):
    images_path = [os.path.join(root,i) for i in os.listdir(root)]      # 获取所有图片路径
    test_split_path = random.sample(images_path, k=int(len(images_path) * test_rate))   # 随机采样测试集

    # 遍历所有图片
    for image_path in tqdm(images_path,desc='loading...'):
        # 获取相应的标注文件,这里需要根据目录、后缀更改
        label_path = image_path.replace('images','annotation')
        label_path = label_path.replace('.png','.xml')

        # 划分数据
        if image_path in test_split_path:       # 在测试集
            shutil.copy(image_path,'./data/test/images')
            shutil.copy(label_path,'./data/test/labels')
        else:
            shutil.copy(image_path,'./data/train/images')
            shutil.copy(label_path,'./data/train/labels')


if __name__ == '__main__':
    rawDataSet = './rawDataSet/images'            # 原始数据的图片路径

    if os.path.exists('./data'):        # 如果之前有,那么删除
        shutil.rmtree('./data')

    os.makedirs('./data/train/images')      # 训练集图片
    os.makedirs('./data/train/labels')      # 训练集标签
    os.makedirs('./data/test/images')       # 测试集图片
    os.makedirs('./data/test/labels')       # 测试集标签

    # 划分数据
    split_data(root=rawDataSet,test_rate=0.2)

代码运行过程:这里测试的就是五个数据

生成结果:

3. 代码使用的相关问题

不同于其他任务,脚本的运行逻辑是传入原始数据的图片目录 ,因为目标检测的标注文件和原图只是存放的目录不同,并且后缀不同,文件名是完全相同的

所以划分数据的时候,只需要找到图片,根据目录可以直接找到对应的标签

如下,第一个是目录的替换,根据数据进行更换,

第二个是图片后缀,根据自己数据集更换即可

如果是yolo标注的txt文件,也是一样的,后缀更换就行了

相关推荐
5pace2 分钟前
机器学习(西瓜书)第 14 章 概率图模型
人工智能·机器学习
Linux猿5 分钟前
828华为云征文 | 云服务器Flexus X实例:部署 AgentOps,全方位监测智能体
人工智能·华为云·agent·autogen·flexus云服务器x实例·华为云服务器·agentops
Rense122 分钟前
开源RK3588 AI Module7,并与Jetson Nano生态兼容的低功耗AI模块
人工智能·开源
FL162386312938 分钟前
[数据集][目标检测]不同颜色的安全帽检测数据集VOC+YOLO格式7574张5类别
人工智能·yolo·目标检测
QuantumYou43 分钟前
计算机视觉 对比学习 串烧二
人工智能·学习·计算机视觉
阿利同学43 分钟前
热成像目标检测数据集
人工智能·目标检测·机器学习·目标跟踪·数据集·热成像目标检测数据集·机器学习 深度学习
拥抱AGI1 小时前
我说大模型微调没啥技术含量,谁赞成谁反对?
人工智能·学习·语言模型·大模型学习·大模型入门·大模型教程
aqymnkstkw1 小时前
2024年【电气试验】考试题库及电气试验模拟试题
大数据·c语言·人工智能·嵌入式硬件·安全
2401_8504404971 小时前
激发AI创造力:掌握Prompt提示词的高效提问方法
人工智能·prompt
Terry Cao 漕河泾2 小时前
SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World
人工智能·计算机视觉·3d·目标跟踪