day43

  1. Dataset 类的__getitem__和__len__方法

Dataset是 PyTorch 中封装数据的抽象类,需自定义子类并实现两个核心方法。

len():返回数据集的总样本数(告诉Dataloader数据集有多大);

getitem(idx):根据索引idx返回对应的样本(特征 + 标签),支持按索引取数据。

  1. Dataloader 类

Dataloader是 PyTorch 中加载数据的工具,基于Dataset实现。

功能:批量加载数据、打乱数据、多线程加载

核心参数:

dataset:传入自定义的Dataset对象;

batch_size:每个批次的样本数;

shuffle:是否打乱数据(训练集设为True,测试集设为False);

num_workers:多线程加载的进程数(加速数据读取)。

  1. MNIST 手写数据集

MNIST 是手写数字图像数据集,常用于图像分类入门,PyTorch 中可通过torchvision.datasets.MNIST直接加载。

作业:

CIFAR 数据集介绍

CIFAR 是彩色图像分类数据集,分为 CIFAR-10(10 个类别)和 CIFAR-100(100 个类别):

CIFAR-10 包含:飞机、汽车、鸟、猫等 10 类物体;

图像规格:32×32 像素的彩色图(3 通道:RGB);

数据量:50000 张训练图、10000 张测试图。

@浙大疏锦行

相关推荐
花酒锄作田5 小时前
使用 pkgutil 实现动态插件系统
python
前端付豪8 小时前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain
曲幽9 小时前
FastAPI实战:打造本地文生图接口,ollama+diffusers让AI绘画更听话
python·fastapi·web·cors·diffusers·lcm·ollama·dreamshaper8·txt2img
老赵全栈实战9 小时前
Pydantic配置管理最佳实践(一)
python
阿尔的代码屋15 小时前
[大模型实战 07] 基于 LlamaIndex ReAct 框架手搓全自动博客监控 Agent
人工智能·python
AI探索者1 天前
LangGraph StateGraph 实战:状态机聊天机器人构建指南
python
AI探索者1 天前
LangGraph 入门:构建带记忆功能的天气查询 Agent
python
FishCoderh1 天前
Python自动化办公实战:批量重命名文件,告别手动操作
python
躺平大鹅1 天前
Python函数入门详解(定义+调用+参数)
python
曲幽1 天前
我用FastAPI接ollama大模型,差点被asyncio整崩溃(附对话窗口实战)
python·fastapi·web·async·httpx·asyncio·ollama