【PyTorch】PyTorch中的数据预处理操作

PyTorch深度学习总结

第十二章 PyTorch中的数据预处理操作


文章目录


前言

上文介绍了PyTorch中torch.nn模块的全连接层,本文将介绍PyTorch中torch.utils.data 模块的数据处理操作:


一、torch.utils.data 模块

torch.utils.dataPyTorch 中用于数据处理和加载的重要模块,它提供了一系列工具和类,方便用户对数据集进行管理和操作。以下是对该模块的详细介绍:

1. 核心组件

1.1 Dataset 类

  • 作用Dataset 类是一个抽象基类,用于表示数据集。用户需要继承这个类并实现 __len____getitem__ 方法,以定义数据集的长度和如何获取数据集中的单个样本。
  • 示例
python 复制代码
import torch
from torch.utils.data import Dataset

class MyDataset(Dataset):
   def __init__(self, data):
       self.data = data

   def __len__(self):
       return len(self.data)

   def __getitem__(self, idx):
       return self.data[idx]

data = [1, 2, 3, 4, 5]
dataset = MyDataset(data)
print(len(dataset))  
print(dataset[2])    
  • 解释 :在这个示例中,我们创建了一个自定义的数据集类 MyDataset,它接受一个列表作为数据。__len__ 方法返回数据集的长度,__getitem__ 方法根据索引返回数据集中的单个样本。

1.2 DataLoader 类

  • 作用DataLoader 类用于将数据集封装成一个可迭代的对象,支持批量加载数据、打乱数据顺序、多线程加载等功能,方便在训练模型时使用。
  • 示例
python 复制代码
from torch.utils.data import DataLoader

dataloader = DataLoader(dataset, batch_size=2, shuffle=True)
for batch in dataloader:
   print(batch)
  • 解释 :在这个示例中,我们将之前创建的 dataset 封装成一个 DataLoader 对象,设置批量大小为 2,并开启数据打乱功能。然后通过迭代 DataLoader 对象,可以逐批获取数据。

2.常用工具类

2.1 Subset 类

  • 作用Subset 类用于创建数据集的子集,通过指定数据集和索引列表来获取子集中的数据。
  • 示例
python 复制代码
from torch.utils.data import Subset

subset = Subset(dataset, [0, 2, 4])
print(len(subset))  
print(subset[1])    
  • 解释 :在这个示例中,我们创建了 dataset 的一个子集 subset,只包含索引为 0、2、4 的样本。

2.2 ConcatDataset 类

  • 作用ConcatDataset 类用于将多个数据集合并成一个数据集。
  • 示例
python 复制代码
from torch.utils.data import ConcatDataset

dataset1 = MyDataset([1, 2, 3])
dataset2 = MyDataset([4, 5, 6])
concat_dataset = ConcatDataset([dataset1, dataset2])
print(len(concat_dataset))  
print(concat_dataset[4])    
  • 解释 :在这个示例中,我们将两个自定义的数据集 dataset1dataset2 合并成一个新的数据集 concat_dataset

3. 数据采样器

3.1 RandomSampler 类

  • 作用RandomSampler 类用于随机采样数据集中的样本,常用于打乱数据顺序。
  • 示例
python 复制代码
from torch.utils.data import RandomSampler

sampler = RandomSampler(dataset)
dataloader = DataLoader(dataset, batch_size=2, sampler=sampler)
for batch in dataloader:
   print(batch)
  • 解释 :在这个示例中,我们使用 RandomSampler 类对数据集进行随机采样,然后将采样器传递给 DataLoader 对象,这样在加载数据时会随机获取样本。

3.2 SequentialSampler 类

  • 作用SequentialSampler 类用于按顺序采样数据集中的样本。
  • 示例
python 复制代码
from torch.utils.data import SequentialSampler

sampler = SequentialSampler(dataset)
dataloader = DataLoader(dataset, batch_size=2, sampler=sampler)
for batch in dataloader:
  print(batch)
  • 解释 :在这个示例中,我们使用 SequentialSampler 类对数据集进行顺序采样,然后将采样器传递给 DataLoader 对象,这样在加载数据时会按顺序获取样本。

二、常用函数

操作函数 功能
torch.utils.data.TensorDataset() 将数据处理为张量
torch.utils.data.ConcatDataset() 连接多个数据集
torch.utils.data.Subset() 根据索引获取数据集的子集
torch.utils.data.DataLoader() 数据加载器
torch.utils.data.random_split() 随机将数据集拆分为给定长度的非重叠新数据集
相关推荐
MongoVIP13 小时前
Scrapy爬虫实战:正则高效解析豆瓣电影
python·scrapy
李小白6613 小时前
Python文件操作
开发语言·python
飞哥数智坊13 小时前
3B参数差点干翻32B模型,Qwen3 Next 是如何做到的?
人工智能
人工智能技术派13 小时前
Whisper推理源码解读
人工智能·语言模型·whisper·语音识别
weixin_5259363314 小时前
金融大数据处理与分析
hadoop·python·hdfs·金融·数据分析·spark·matplotlib
编码追梦人14 小时前
AI 重塑行业格局:从金融风控到智能制造的深度实践
人工智能·制造
Lululaurel14 小时前
提示工程深度解析:驾驭大语言模型的艺术与科学
人工智能·ai·aigc·提示词
Zwb29979214 小时前
Day 30 - 错误、异常与 JSON 数据 - Python学习笔记
笔记·python·学习·json
simon_skywalker14 小时前
第7章 n步时序差分 n步时序差分预测
人工智能·算法·强化学习
唐兴通个人14 小时前
清华大学AI领导力AI时代领导力AI变革领导力培训师培训讲师专家唐兴通讲授数字化转型人工智能组织创新实践领导力国央企国有企业金融运营商制造业
人工智能·数据挖掘