day43

  1. Dataset 类的__getitem__和__len__方法

Dataset是 PyTorch 中封装数据的抽象类,需自定义子类并实现两个核心方法。

len():返回数据集的总样本数(告诉Dataloader数据集有多大);

getitem(idx):根据索引idx返回对应的样本(特征 + 标签),支持按索引取数据。

  1. Dataloader 类

Dataloader是 PyTorch 中加载数据的工具,基于Dataset实现。

功能:批量加载数据、打乱数据、多线程加载

核心参数:

dataset:传入自定义的Dataset对象;

batch_size:每个批次的样本数;

shuffle:是否打乱数据(训练集设为True,测试集设为False);

num_workers:多线程加载的进程数(加速数据读取)。

  1. MNIST 手写数据集

MNIST 是手写数字图像数据集,常用于图像分类入门,PyTorch 中可通过torchvision.datasets.MNIST直接加载。

作业:

CIFAR 数据集介绍

CIFAR 是彩色图像分类数据集,分为 CIFAR-10(10 个类别)和 CIFAR-100(100 个类别):

CIFAR-10 包含:飞机、汽车、鸟、猫等 10 类物体;

图像规格:32×32 像素的彩色图(3 通道:RGB);

数据量:50000 张训练图、10000 张测试图。

@浙大疏锦行

相关推荐
zhoutongsheng6 分钟前
C#怎么实现Swagger文档 C#如何在ASP.NET Core中集成Swagger自动生成API文档【框架】
jvm·数据库·python
.5481 小时前
## Sorting(排序算法)
python·算法·排序算法
ydmy1 小时前
注意力机制(个人理解)
pytorch·python·深度学习
iwhitney2 小时前
【次方量化】3分钟搞懂什么是量化策略
python
高洁013 小时前
大模型部署资源不足?轻量化部署解决方案
python·深度学习·机器学习·数据挖掘·transformer
阿里云大数据AI技术3 小时前
MaxFrame 视频帧智能分析:从视频到语义向量的端到端分布式处理
人工智能·python
淘矿人3 小时前
从0到1:用Claude启动你的第一个项目
开发语言·人工智能·git·python·github·php·pygame
嘻嘻哈哈樱桃3 小时前
牛客经典101题题解集--动态规划
java·数据结构·python·算法·职场和发展·动态规划
gmaajt3 小时前
Golang怎么做国际化多语言_Golang i18n教程【核心】
jvm·数据库·python
maqr_1103 小时前
CSS如何利用Sass定义全局阴影方案_通过变量实现统一CSS风格
jvm·数据库·python