数据集相关类代码回顾理解 | DataLoader\datasets.xxx

F_D_Z2025-07-31 15:15

DataLoader

复制代码

train_dl = DataLoader(train_ds, batch_size=32, shuffle=True)

创建训练数据集的加载器，batch_size为32，表示每次迭代时使用的样本数量，shuffle为True，表示每次迭代时都会打乱训练数据集，提高泛化能力。DataLoader是torch.utils.data中用于加载数据的一个类，提供数据分批、数据打乱、多线程加载等功能

训练神经网络时通常会将整个训练数据集分成多个小批次（batches），每个批次包含一定数量的样本。模型会在每个批次上进行一次前向传播和反向传播，以更新模型的参数。较大的batch_size可以提供更准确的梯度估计，但可能会导致训练速度较慢。较小的batch_size可以提高训练速度，但可能会导致梯度估计的准确性降低。

datasets.xxx

复制代码

fashion_train=datasets.FashionMNIST(path2data, train=True, download=True)

从datasets库中导入FashionMNIST数据集，指定加载训练集。torchvision包中FashionMNIST,由60，000个示例的训练集和10，000个示例的测试集组成。每个示例都是28x28灰度图像，与来自10个类别的标签相关联，可以用于多类图像分类。

path2data为已有数据集的路径或未有数据集的下载路径。train=True表示指定加载训练集。如果设置为 False，则加载测试集。download=True表示如果数据集不存在，则自动下载数据集。如果数据集已经存在，则不会下载。