day43

  1. Dataset 类的__getitem__和__len__方法

Dataset是 PyTorch 中封装数据的抽象类,需自定义子类并实现两个核心方法。

len():返回数据集的总样本数(告诉Dataloader数据集有多大);

getitem(idx):根据索引idx返回对应的样本(特征 + 标签),支持按索引取数据。

  1. Dataloader 类

Dataloader是 PyTorch 中加载数据的工具,基于Dataset实现。

功能:批量加载数据、打乱数据、多线程加载

核心参数:

dataset:传入自定义的Dataset对象;

batch_size:每个批次的样本数;

shuffle:是否打乱数据(训练集设为True,测试集设为False);

num_workers:多线程加载的进程数(加速数据读取)。

  1. MNIST 手写数据集

MNIST 是手写数字图像数据集,常用于图像分类入门,PyTorch 中可通过torchvision.datasets.MNIST直接加载。

作业:

CIFAR 数据集介绍

CIFAR 是彩色图像分类数据集,分为 CIFAR-10(10 个类别)和 CIFAR-100(100 个类别):

CIFAR-10 包含:飞机、汽车、鸟、猫等 10 类物体;

图像规格:32×32 像素的彩色图(3 通道:RGB);

数据量:50000 张训练图、10000 张测试图。

@浙大疏锦行

相关推荐
摘星编程14 小时前
深入理解CANN ops-nn BatchNormalization算子:训练加速的关键技术
python
魔芋红茶14 小时前
Python 项目版本控制
开发语言·python
lili-felicity14 小时前
CANN批处理优化技巧:从动态批处理到流水线并行
人工智能·python
一个有梦有戏的人14 小时前
Python3基础:进阶基础,筑牢编程底层能力
后端·python
摘星编程14 小时前
解析CANN ops-nn中的Transpose算子:张量维度变换的高效实现
python
Liekkas Kono14 小时前
RapidOCR Python 贡献指南
开发语言·python·rapidocr
玄同76514 小时前
Python 后端三剑客:FastAPI/Flask/Django 对比与 LLM 开发选型指南
人工智能·python·机器学习·自然语言处理·django·flask·fastapi
爱吃泡芙的小白白15 小时前
环境数据多维关系探索利器:Pairs Plot 完全指南
python·信息可视化·数据分析·环境领域·pairs plot
派葛穆15 小时前
Python-批量安装依赖
开发语言·python