Pytorch学习--DataLoader的使用

一、DataLoader简介

DataLoader官网

重要参数:画红框的参数

  • dataset:
    • 作用:表示要加载的数据集。DataLoader通过该参数从数据集中读取数据。
    • 类型:Dataset,即PyTorch定义的Dataset类,用于封装数据并提供数据索引的功能。
  • batch_size:
    • 作用:指定每次加载的数据样本数量(即每个批次的数据量)。默认值为1。
    • 类型:int(可选),默认为1。设置为大于1的值时,可以加速训练,因为数据将被批量处理。
  • shuffle:
    • 作用:是否在每个epoch结束后打乱数据顺序。如果设置为True,数据会在每个epoch重新随机排列。默认值是False,即数据不打乱。
    • 类型:bool(可选),是否打乱数据。
  • sampler:
    • 作用:定义从数据集中提取数据的策略。可以传入一个Sampler类的实例,自定义数据抽样的方式。注意,如果指定了sampler,则不能再使用shuffle。
    • 类型:Sampler或Iterable(可选),用于控制数据抽样。
  • batch_sampler:
    • 作用:与sampler类似,但batch_sampler返回的是一批次的索引,而不是单个样本索引。此参数与batch_size、shuffle和drop_last互斥,不能同时使用。
    • 类型:Sampler或Iterable(可选),专门用于批次索引的抽样。
  • num_workers:
    • 作用:指定用于数据加载的子进程数量。0表示在主进程中进行数据加载。较大的值可以加速数据加载,但需要在进程间共享数据。
    • 类型:int(可选),默认为0。
  • drop_last:
    • 作用:是否丢弃最后一个未满批次的数据。当数据集的大小不能整除batch_size时,最后一个批次的大小可能会小于batch_size。如果将drop_last设为True,则丢弃这个不完整的批次。
    • 类型:bool(可选),默认为False。

二、代码初识

python 复制代码
import torchvision.datasets
from torch.utils.data import DataLoader

train_data=torchvision.datasets.CIFAR10(root="datasets",train=False,transform=torchvision.transforms.ToTensor(),download=True)
train_loader=DataLoader(dataset=train_data,batch_size=4,shuffle=True)

img,target=train_data[0]
print(img.shape)
print(target)

for data in train_loader:
    imgs,targets=data
    print(imgs.shape)
    print(targets)

因为这里采取的是随机抽样

三、使用tensorboard可视化

python 复制代码
import torchvision.datasets
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

train_data=torchvision.datasets.CIFAR10(root="datasets",train=False,transform=torchvision.transforms.ToTensor(),download=True)
#shuffle会在epoch中表现出来
train_loader=DataLoader(dataset=train_data,batch_size=4,shuffle=True)


img,target=train_data[0]
writer=SummaryWriter("logs")

step=0

for epoch in range(2):
    for data in train_loader:
        imgs,targets=data
        #注意:这里是add_images,不是add_image
        writer.add_images("epoch{}".format(epoch),imgs,step)
        step+=1
writer.close()
相关推荐
黎阳之光几秒前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好11 分钟前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
明日清晨17 分钟前
python扫码登录dy
开发语言·python
_李小白17 分钟前
【OSG学习笔记】Day 38: TextureVisitor(纹理访问器)
android·笔记·学习
智星云算力30 分钟前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
bazhange30 分钟前
python如何像matlab一样使用向量化替代for循环
开发语言·python·matlab
jinanwuhuaguo31 分钟前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_35 分钟前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能
枫叶林FYL36 分钟前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理
AI人工智能+43 分钟前
基于高精度身份证OCR识别、炫彩活体检测及人脸比对技术的人脸核身系统,为通信行业数字化转型提供了坚实的安全底座
人工智能·计算机视觉·人脸识别·ocr·人脸核身