day43

  1. Dataset 类的__getitem__和__len__方法

Dataset是 PyTorch 中封装数据的抽象类,需自定义子类并实现两个核心方法。

len():返回数据集的总样本数(告诉Dataloader数据集有多大);

getitem(idx):根据索引idx返回对应的样本(特征 + 标签),支持按索引取数据。

  1. Dataloader 类

Dataloader是 PyTorch 中加载数据的工具,基于Dataset实现。

功能:批量加载数据、打乱数据、多线程加载

核心参数:

dataset:传入自定义的Dataset对象;

batch_size:每个批次的样本数;

shuffle:是否打乱数据(训练集设为True,测试集设为False);

num_workers:多线程加载的进程数(加速数据读取)。

  1. MNIST 手写数据集

MNIST 是手写数字图像数据集,常用于图像分类入门,PyTorch 中可通过torchvision.datasets.MNIST直接加载。

作业:

CIFAR 数据集介绍

CIFAR 是彩色图像分类数据集,分为 CIFAR-10(10 个类别)和 CIFAR-100(100 个类别):

CIFAR-10 包含:飞机、汽车、鸟、猫等 10 类物体;

图像规格:32×32 像素的彩色图(3 通道:RGB);

数据量:50000 张训练图、10000 张测试图。

@浙大疏锦行

相关推荐
石榴树下的七彩鱼1 小时前
图片去水印 API 详解:从单图到批量自动化去水印(附 Python/JS/PHP 完整教程)
python·自动化·图片处理·图片去水印·石榴智能·api教程
Li emily7 小时前
解决了加密货币api多币种订阅时的数据乱序问题
人工智能·python·api·fastapi
2301_781571427 小时前
Golang格式化输出占位符都有什么_Golang fmt占位符教程【通俗】
jvm·数据库·python
asdzx678 小时前
使用 Python 为 PDF 添加页码 (详细教程)
python·pdf·页码
AI技术控8 小时前
《Transformers are Inherently Succinct》论文解读:从“能表达什么”到“多紧凑地表达”
人工智能·python·深度学习·机器学习·自然语言处理
金融大 k10 小时前
Python 全球指数监控面板:TickDB + REST + WebSocket 完整方案
python·websocket
啊哈哈1213810 小时前
系统设计复盘:为什么 Agent 的 ReAct 循环必须内嵌确定性保护层——以 FitMind 健康助手的路由与步骤控制为例
人工智能·python·react
一颗牙牙11 小时前
安装mmcv
开发语言·python·深度学习
大数据魔法师11 小时前
Streamlit(二)- Streamlit 架构与运行机制
python·web
m0_4708576412 小时前
PHP怎么实现工厂模式_Factory模式编写指南【指南】
jvm·数据库·python