利用sklearn工具中的train_test_split快速划分实例分割数据集

目录

1.导入相关的包

[2. 文件夹路径](#2. 文件夹路径)

3.获取所有文件的路径列表

[4. 划分数据集为训练集和测试集最终保存测试集](#4. 划分数据集为训练集和测试集最终保存测试集)

5.将进一步上面得到的训练集划分为训练集和验证集,保存训练集和验证集

6.将以上的结果保存。


1.导入相关的包
python 复制代码
import os
from sklearn.model_selection import train_test_split
2. 文件夹路径
python 复制代码
# 文件夹路径
original_images = "......\JPEGImages"
annotated_images = "......\SegmentationClass"
3.获取所有文件的路径列表
python 复制代码
original_files = [os.path.join(original_images, file) for file in os.listdir(original_images)]
annotated_files = [os.path.join(annotated_images, file) for file in os.listdir(annotated_images)]
4. 划分数据集为训练集和测试集最终保存测试集
python 复制代码
train_original, test_original, train_annotated, test_annotated = train_test_split(
    original_files, annotated_files, test_size=0.2, random_state=42)
5.将进一步上面得到的训练集划分为训练集和验证集,保存训练集和验证集
python 复制代码
train_original, val_original, train_annotated, val_annotated = train_test_split(
    train_original, train_annotated, test_size=0.1, random_state=42)
6.将以上的结果保存。
相关推荐
万粉变现经纪人1 天前
如何解决pip安装报错ModuleNotFoundError: No module named ‘cuml’问题
python·scrapy·beautifulsoup·pandas·ai编程·pip·scipy
IT学长编程1 天前
计算机毕业设计 基于Hadoop豆瓣电影数据可视化分析设计与实现 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试
大数据·hadoop·python·django·毕业设计·毕业论文·豆瓣电影数据可视化分析
星期天要睡觉1 天前
计算机视觉(opencv)实战二十一——基于 SIFT 和 FLANN 的指纹图像匹配与认证
人工智能·opencv·计算机视觉
java1234_小锋1 天前
Scikit-learn Python机器学习 - 分类算法 - K-近邻(KNN)算法
python·算法·机器学习
victory04311 天前
wav2vec微调进行疾病语音分类任务
人工智能·分类·数据挖掘
semantist@语校1 天前
第二十篇|SAMU教育学院的教育数据剖析:制度阈值、能力矩阵与升学网络
大数据·数据库·人工智能·百度·语言模型·矩阵·prompt
大翻哥哥1 天前
Python上下文管理器进阶指南:不仅仅是with语句
前端·javascript·python
QiZhang | UESTC1 天前
JAVA算法练习题day11
java·开发语言·python·算法·hot100
IT_陈寒1 天前
React 性能优化必杀技:这5个Hook组合让你的应用提速50%!
前端·人工智能·后端
PyHaVolask1 天前
Python进阶教程:随机数、正则表达式与异常处理
python·正则表达式·异常处理·随机数生成