【PyTorch】PyTorch中数据准备工作（AI生成）

PyTorch深度学习总结

AI第一章 PyTorch中数据准备工作

文章目录

PyTorch深度学习总结
前言
[一、数据收集与整理](#一、数据收集与整理)
[二、数据集类的创建](#二、数据集类的创建)
三、数据预处理
[四、数据加载器的使用](#四、数据加载器的使用)
[五、划分训练集、验证集和测试集](#五、划分训练集、验证集和测试集)

前言

上文介绍torch.nn模块中的全连接层，本文将介绍数据集的准备工作。在 PyTorch 中，数据准备工作是构建和训练深度学习模型的重要基础，以下从多个方面简述相关内容：

一、数据收集与整理

内容：根据具体的任务需求，收集合适的数据。这些数据需要按照一定的规则进行整理，比如将图像数据按类别分别存放在不同的文件夹中，将文本数据按行分割成样本等。

操作方式 ：手动收集数据时，可从公开数据集网站（如 Kaggle、ImageNet 等）下载，或者通过网络爬虫获取数据。整理数据可使用 Python 的 os 模块进行文件操作，使用 pandas 库处理 CSV 文件。

二、数据集类的创建

内容：PyTorch 提供了 torch.utils.data.Dataset 抽象类，用户需要自定义一个继承该类的数据集类，并实现 __len__ 和 __getitem__ 方法。__len__ 方法返回数据集的样本数量，__getitem__ 方法根据索引返回一个样本及其对应的标签。

例子：对于图像数据集类，__getitem__ 方法可能会读取指定索引的图像文件，对其进行预处理（如调整大小、归一化等），并返回处理后的图像张量和对应的标签。

操作方式：以下是一个简单的图像数据集类示例：
python 复制代码
import torch
from torch.utils.data import Dataset
import os
from PIL import Image

class CustomImageDataset(Dataset):
   def __init__(self, root_dir, transform=None):
       self.root_dir = root_dir
       self.transform = transform
       self.classes = os.listdir(root_dir)
       self.data = []
       for class_name in self.classes:
           class_dir = os.path.join(root_dir, class_name)
           for img_name in os.listdir(class_dir):
               img_path = os.path.join(class_dir, img_name)
               label = self.classes.index(class_name)
               self.data.append((img_path, label))

   def __len__(self):
       return len(self.data)

   def __getitem__(self, idx):
       img_path, label = self.data[idx]
       image = Image.open(img_path).convert('RGB')
       if self.transform:
           image = self.transform(image)
       return image, label

三、数据预处理

内容：对原始数据进行预处理，使其适合模型输入。常见的预处理操作包括图像的缩放、裁剪、归一化，文本的分词、编码等。

例子：在图像数据预处理中，使用 torchvision.transforms 模块，可将图像调整为固定大小（如 224x224），并进行归一化操作，将像素值缩放到 [0, 1] 或 [-1, 1] 区间。对于文本数据，可使用 torchtext 库进行分词，将每个单词转换为对应的索引。

操作方式：以下是图像预处理的示例代码：
python 复制代码
import torchvision.transforms as transforms

transform = transforms.Compose([
   transforms.Resize((224, 224)),
   transforms.ToTensor(),
   transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

四、数据加载器的使用

内容：使用 torch.utils.data.DataLoader 类将数据集封装成可迭代的数据加载器。数据加载器可以实现数据的批量加载、打乱顺序、并行加载等功能。

例子：在训练模型时，可将数据集分成多个批次，每个批次包含一定数量的样本（如 32 个），数据加载器会按顺序或随机地将这些批次提供给模型进行训练。

操作方式：结合前面创建的数据集类和预处理操作，创建数据加载器的示例如下：
python 复制代码
from torch.utils.data import DataLoader

# 创建数据集实例
dataset = CustomImageDataset(root_dir='path/to/data', transform=transform)
# 创建数据加载器
dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4)
其中，batch_size 表示每个批次的样本数量，shuffle 为 True 时表示在每个 epoch 开始时打乱数据顺序，num_workers 表示用于数据加载的子进程数量。

五、划分训练集、验证集和测试集

内容：为了评估模型的性能，需要将数据集划分为训练集、验证集和测试集。训练集用于模型的训练，验证集用于在训练过程中调整模型的超参数，测试集用于最终评估模型的泛化能力。

例子：通常可按照 70%、15%、15% 的比例划分训练集、验证集和测试集。

操作方式 ：可使用 torch.utils.data.random_split 方法进行划分，示例代码如下：
python 复制代码
from torch.utils.data import random_split

train_size = int(0.7 * len(dataset))
val_size = int(0.15 * len(dataset))
test_size = len(dataset) - train_size - val_size

train_dataset, val_dataset, test_dataset = random_split(dataset, [train_size, val_size, test_size])

train_dataloader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_dataloader = DataLoader(val_dataset, batch_size=32, shuffle=False)
test_dataloader = DataLoader(test_dataset, batch_size=32, shuffle=False)

注意：本文内容由豆包AI生成。

【PyTorch】PyTorch中数据准备工作（AI生成）

PyTorch深度学习总结

文章目录

前言

一、 数据收集与整理

二、 数据集类的创建

三、数据预处理

四、 数据加载器的使用

五、 划分训练集、验证集和测试集

一、数据收集与整理

二、数据集类的创建

四、数据加载器的使用

五、划分训练集、验证集和测试集