将分类数据划分为训练集、测试集与验证集

用于将指定路径下的 0-6 编号的 7 个文件夹中的数据按照 8:1:1 的比例划分到 train、val 和 test 这三个文件夹中。

1.代码功能说明

  1. 源文件夹路径:假设编号文件夹在 src_path 中,每个编号文件夹的名称为 0, 1, 2, ..., 6。
  2. 划分比例:默认按照 8:1:1 的比例划分,分别对应训练集、验证集和测试集。
  3. 数据打乱:使用 random.shuffle 将每个编号文件夹内的文件顺序打乱,确保划分均匀。
  4. 目标文件夹创建:在 dest_path 下创建 train、val 和 test 文件夹。
  5. 文件复制:使用 shutil.copy 将文件从源文件夹复制到目标文件夹。
python 复制代码
import os
import shutil
import random

def split_data(src_path, dest_path, split_ratio=(0.8, 0.1, 0.1)):
    # 创建目标文件夹结构
    for split in ['train', 'val', 'test']:
        split_path = os.path.join(dest_path, split)
        os.makedirs(split_path, exist_ok=True)
        for i in range(7):  # 创建 0-6 的子文件夹
            os.makedirs(os.path.join(split_path, str(i)), exist_ok=True)

    # 遍历编号文件夹(0-6)
    for folder in range(7):
        folder_path = os.path.join(src_path, str(folder))
        if not os.path.exists(folder_path):
            print(f"文件夹 {folder_path} 不存在,跳过...")
            continue

        # 获取文件列表并打乱顺序
        files = os.listdir(folder_path)
        random.shuffle(files)

        # 按照比例划分
        total_files = len(files)
        train_end = int(total_files * split_ratio[0])
        val_end = train_end + int(total_files * split_ratio[1])

        train_files = files[:train_end]
        val_files = files[train_end:val_end]
        test_files = files[val_end:]

        # 将文件复制到对应的目标文件夹
        for file in train_files:
            shutil.copy(os.path.join(folder_path, file), os.path.join(dest_path, "train", str(folder), file))
        for file in val_files:
            shutil.copy(os.path.join(folder_path, file), os.path.join(dest_path, "val", str(folder), file))
        for file in test_files:
            shutil.copy(os.path.join(folder_path, file), os.path.join(dest_path, "test", str(folder), file))

        print(f"文件夹 {folder_path} 已处理完成,训练集:{len(train_files)},验证集:{len(val_files)},测试集:{len(test_files)}")

# 使用
src_path = "/path/to/source/folders"  # 原始数据文件夹路径
dest_path = "/path/to/destination/folders"  # 目标文件夹路径
split_data(src_path, dest_path)
相关推荐
ctrlworks13 分钟前
楼宇自控核心功能:实时监控设备运行,快速诊断故障,赋能设备寿命延长
人工智能·ba系统厂商·楼宇自控系统厂家·ibms系统厂家·建筑管理系统厂家·能耗监测系统厂家
BFT白芙堂1 小时前
睿尔曼系列机器人——以创新驱动未来,重塑智能协作新生态(上)
人工智能·机器学习·机器人·协作机器人·复合机器人·睿尔曼机器人
aneasystone本尊1 小时前
使用 MCP 让 Claude Code 集成外部工具
人工智能
静心问道1 小时前
SEW:无监督预训练在语音识别中的性能-效率权衡
人工智能·语音识别
羊小猪~~1 小时前
【NLP入门系列五】中文文本分类案例
人工智能·深度学习·考研·机器学习·自然语言处理·分类·数据挖掘
xwz小王子1 小时前
从LLM到WM:大语言模型如何进化成具身世界模型?
人工智能·语言模型·自然语言处理
我爱一条柴ya1 小时前
【AI大模型】深入理解 Transformer 架构:自然语言处理的革命引擎
人工智能·ai·ai作画·ai编程·ai写作
静心问道1 小时前
FLAN-T5:规模化指令微调的语言模型
人工智能·语言模型·自然语言处理
李师兄说大模型1 小时前
KDD 2025 | 地理定位中的群体智能:一个多智能体大型视觉语言模型协同框架
人工智能·深度学习·机器学习·语言模型·自然语言处理·大模型·deepseek
静心问道1 小时前
SqueezeBERT:计算机视觉能为自然语言处理在高效神经网络方面带来哪些启示?
人工智能·计算机视觉·自然语言处理