pytorch分批加载大数据集

pytorch分批加载大数据集

本文处理的数据特点:

(1)数据量大,无法一次读取到内存中

(2)数据是图片或者存储在csv中(每一行是一个sample,包括feature和label)

加载数据集需要继承torch.utils.data 的 Dataset类,并实现 __len__和__getitem__方法。其中

len:返回数据集总数,

getitem:返回指定的数的矩阵和标签。

加载图片

这段代码是一个使用 PyTorch 数据加载和处理机制的例子,主要用于从指定目录加载图片数据,并通过 DataLoader 进行批量处理。

python 复制代码
from torch.utils.data import Dataset, DataLoader
import torch
import glob
import os
from PIL import Image

class PictureLoad(Dataset):
    def __init__(self, paths, size=(10, 10)):
        self.paths = glob.glob(paths)
        self.size = size

    def __len__(self):
        return len(self.paths)

    def __getitem__(self, item):
        try:
            img = Image.open(self.paths[item]).resize(self.size)
            img_tensor = torch.from_numpy(np.asarray(img)).float() / 255.0  # 转为Tensor并归一化
            label = os.path.basename(self.paths[item]).split('.')[0]  # 更健壮的文件名提取方式
            return img_tensor, label
        except IOError:
            print(f"Error opening file: {self.paths[item]}")  # 处理文件打开错误
            return None, None

if __name__ == '__main__':
    root_path = os.path.join(os.path.dirname(os.getcwd()), "cap")
    pic_paths = os.path.join(root_path, '*.jpg')

    picture = Pictureload(pic_paths)
    dataloader = DataLoader(picture, batch_size=32, num_workers=2, timeout=2)

    for a, b in dataloader:
        print(b, a.shape)  # 输出标签和图片数据的尺寸,而不是原始数据

表格数据

确保数据以分批方式从文件中加载,且不会一次性将所有数据加载到内存中,适合处理大规模数据文件。

python 复制代码
import torch
from torch.utils.data import Dataset, DataLoader
import pandas as pd

class DataLoad(Dataset):
    def __init__(self, file_path, batch_size=3):
        '''
        初始化函数,设置文件路径和每批读取的数据大小。
        '''
        self.file_path = file_path
        self.batch_size = batch_size
        self.total_data = self._get_total_len()

    def _get_total_len(self):
        '''
        辅助函数用于计算文件中的数据行数。
        '''
        with open(self.file_path, 'r') as file:
            return sum(1 for line in file)

    def __len__(self):
        '''
        返回数据集的总长度。
        '''
        return self.total_data

    def __getitem__(self, idx):
        '''
        根据索引获取数据,每次从文件中动态加载数据。
        '''
        if idx * self.batch_size >= self.total_data:
            raise IndexError("Index out of range")

        skip_rows = idx * self.batch_size if idx > 0 else 0
        df = pd.read_csv(self.file_path, skiprows=skip_rows, nrows=self.batch_size, header=None)
        data_tensor = torch.tensor(df.values)
        return data_tensor

if __name__ == "__main__":
    dataset = DataLoad('path_to_your_data.csv', batch_size=32)
    dataloader = DataLoader(dataset, batch_size=1, shuffle=False, drop_last=False)

    for epoch in range(3):
        print(f"Epoch {epoch + 1}")
        for data in dataloader:
            print("Data Batch:")
            print(data)

对于两个batch_size的解释:假设 PretrainData 类每次通过其__getitem__ 方法返回一批数据,即32行数据(根据它的 batch_size=32 设定)。当您使用 DataLoader 并设置其 batch_size 为1时,意味着每次从 DataLoader 迭代得到的数据批将包含从 PretrainData 返回的1个独立批次。因此,每个从 DataLoader 返回的数据批将包含1*32=32条数据。

相关推荐
听风吹等浪起11 分钟前
第19章:基于efficientNet实现的视频内容识别系统
人工智能·深度学习·音视频
科技小E13 分钟前
视频设备轨迹回放平台EasyCVR打造水库大坝智慧安防视频监控智能分析方案
大数据·网络·人工智能·音视频·安防监控
get lend gua19 分钟前
游戏数据分析,力扣(游戏玩法分析 I~V)mysql+pandas
python·mysql·leetcode·游戏·数据分析
唐叔在学习34 分钟前
【Python入门】文件读取全攻略:5种常用格式(csv/excel/word/ppt/pdf)一键搞定 | 附完整代码示例
python·数据分析·办公自动化·文件处理
隐-梵40 分钟前
Android studio前沿开发--利用socket服务器连接AI实现前后端交互(全站首发思路)
android·服务器·人工智能·后端·websocket·android studio·交互
亚马逊云开发者43 分钟前
生成式 AI 在电商评论场景的应用 : 场景分析和技术选型
人工智能
zxsz_com_cn44 分钟前
医疗设备预测性维护的合规性挑战与标准化路径研究
大数据·数据库·人工智能
心软且酷丶1 小时前
leetcode:2899. 上一个遍历的整数(python3解法)
python·算法·leetcode
沙子可可1 小时前
深入学习OpenCV:第一章简介
人工智能·opencv·学习
Light601 小时前
Python依赖注入完全指南:高效解耦、技术深析与实践落地
python·设计模式·单元测试·fastapi·依赖注入·解耦