深度学习(6):Dataset 和 DataLoader

文章目录

  • [Dataset 类](#Dataset 类)
  • [DataLoader 类](#DataLoader 类)

Dataset 类

概念:

  • Dataset 是一个抽象类,用于表示数据集。它定义了如何获取数据集中的单个样本和标签。

作用:

  • 为数据集提供统一的接口,便于数据的读取、预处理和管理。

关键方法:

  • __len__(self): 返回数据集的大小(样本数量)。
  • __getitem__(self, index): 根据索引 index 返回对应的样本和标签。

自定义 Dataset:

需要继承 torch.utils.data.Dataset并实现上述两个方法。

示例(PyTorch):

python 复制代码
import torch
from torch.utils.data import Dataset

class Dataset(Dataset):
    def __init__(self, datas, labels):
        self.datas = datas # 数据文件路径列表
        self.labels = labels # 标签列表

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        # 加载数据,例如读取图像文件
        data = self.data[idx]
        label = self.labels[idx]
		# 一系列的处理
        return data, label

DataLoader 类

概念:

  • DataLoader 是一个数据迭代器,用于包装 Dataset,以便于批量(batch)加载数据。

作用:

  • 提供批量数据、数据打乱(shuffle)、并行加载(多线程/多进程)等功能,提高数据加载的效率。

关键参数:

  • dataset: 要加载的数据集(Dataset 实例)。
  • batch_size: 每个批次的样本数量。
  • shuffle: 是否在每个 epoch 开始时打乱数据。
  • num_workers: 使用多少子进程来加载数据(0 表示不使用多进程)。
  • collate_fn: 指定如何将一批样本组合成一个批次。

工作流程:

  • Dataset 中按索引取出样本。
  • 使用 collate_fn 将多个样本组合成一个批次。
  • 迭代返回批量数据供模型训练或评估。

示例(PyTorch):

python 复制代码
from torch.utils.data import DataLoader

# 创建 Dataset 实例
dataset = MyDataset(datas, labels)

# 创建 DataLoader 实例
dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4)

相关推荐
赞奇科技Xsuperzone21 分钟前
DGX Spark 实战解析:模型选择与效率优化全指南
大数据·人工智能·gpt·spark·nvidia
音视频牛哥26 分钟前
SmartMediaKit:如何让智能系统早人一步“跟上现实”的时间架构--从实时流媒体到系统智能的演进
人工智能·计算机视觉·音视频·音视频开发·具身智能·十五五规划具身智能·smartmediakit
喜欢吃豆28 分钟前
OpenAI Agent 工具全面开发者指南——从 RAG 到 Computer Use —— 深入解析全新 Responses API
人工智能·microsoft·自然语言处理·大模型
音视频牛哥1 小时前
超清≠清晰:视频系统里的分辨率陷阱与秩序真相
人工智能·机器学习·计算机视觉·音视频·大牛直播sdk·rtsp播放器rtmp播放器·smartmediakit
johnny2331 小时前
AI视频创作工具汇总:MoneyPrinterTurbo、KrillinAI、NarratoAI、ViMax
人工智能·音视频
Coovally AI模型快速验证2 小时前
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
人工智能·深度学习·算法·机器学习·目标跟踪·语言模型
居7然2 小时前
Attention注意力机制:原理、实现与优化全解析
人工智能·深度学习·大模型·transformer·embedding
Scabbards_2 小时前
KGGEN: 用语言模型从纯文本中提取知识图
人工智能·语言模型·自然语言处理
LeonDL1682 小时前
【通用视觉框架】基于C#+Winform+OpencvSharp开发的视觉框架软件,全套源码,开箱即用
人工智能·c#·winform·opencvsharp·机器视觉软件框架·通用视觉框架·机器视觉框架