杂记(3):在Pytorch中如何操作将数据集分为训练集和测试集?

在Pytorch中如何操作将数据集分为训练集和测试集?

  • [0. 前言](#0. 前言)
  • [1. 手动切分](#1. 手动切分)
  • [2. train_test_split方法](#2. train_test_split方法)
  • [3. Pytorch自带方法](#3. Pytorch自带方法)
  • [4. 总结](#4. 总结)

0. 前言

数据集需要分为训练集和测试集! 其中,训练集单纯用来训练,优化模型参数;测试集单纯用来测试,评价模型效果。然而,如何将数据集分为训练集和测试集这个简单的问题网上的回答也是五花八门,明明有简单的方法,当然不想用麻烦的方法啦!因此,这里做一下简单记录!

1. 手动切分

这里所言的手动切分指的是:将数据集前面一部分分为训练集,后面一部分分为测试集。具体代码而言如下:

python 复制代码
# 假设所有数据极为数组a 标签为b
train_X = a[:int(0.8*len(a))]
test_X = a[int(0.8*len(a)):]

train_Y = b[:int(0.8*len(a))]
test_Y = b[int(0.8*len(a)):]

train_dataset= Data.TensorDataset(torch.FloatTensor(train_X ), torch.FloatTensor(train_Y ))
test_dataset= Data.TensorDataset(torch.FloatTensor(test_X), torch.FloatTensor(test_Y))

trainLoader = DataLoader(dataset = train_dataset,batch_size = 18,num_workers = 0,shuffle = True)
testLoader = DataLoader(dataset = test_dataset,batch_size = 18,num_workers = 0,shuffle = True)

2. train_test_split方法

使用机器学习中的 train_test_split 方法!在机器学习中切分数据集一般都用该方法,但是在Pytorch中还是需要进行转换后方可输入模型。

python 复制代码
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(a, b, test_size=0.33, random_state=42)

train_dataset= Data.TensorDataset(torch.FloatTensor(X_train), torch.FloatTensor(y_train))
test_dataset= Data.TensorDataset(torch.FloatTensor(X_test), torch.FloatTensor(y_test ))

trainLoader = DataLoader(dataset = train_dataset,batch_size = 18,num_workers = 0,shuffle = True)
testLoader = DataLoader(dataset = test_dataset,batch_size = 18,num_workers = 0,shuffle = True)

3. Pytorch自带方法

Pytorch中自带的有将数据集随机切分的方法 ( torch.utils.data.random_split ),不需要额外的操作!!!!具体代码如下:

python 复制代码
import torch.utils.data as Data

dataset = Data.TensorDataset(torch.FloatTensor(a), torch.FloatTensor(b))
batch_size = 16
# 将数据集分为训练集和测试集
trainLoader, testLodaer = Data.random_split(dataset,
                                            lengths=[int(0.9 * len(dataset)),
                                            len(dataset) - int(0.9 * len(dataset))],
                                            generator=torch.Generator().manual_seed(0))

4. 总结

到此,使用 在Pytorch中如何操作将数据集分为训练集和测试集已经介绍完毕了!!! 如果有什么问题欢迎在评论区提出,对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的方法也可以在评论区提出,后续会对其进行添加!!!!

如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

相关推荐
努力也学不会java几秒前
【docker】Docker Register(镜像仓库)
运维·人工智能·机器学习·docker·容器
m0_650108241 分钟前
OLMo 2:全开放语言模型的技术突破与实践
论文阅读·人工智能·olmo 2·全开源多模态大模型·全链路开放·训练稳定性
Mintopia2 分钟前
🧠 AIGC技术标准制定:Web行业协同的必要性与难点
人工智能·前端框架·trae
轻竹办公PPT2 分钟前
AI一键生成年终总结PPT
人工智能·python·powerpoint
是Dream呀2 分钟前
昇腾平台 PyTorch 迁移实操:从环境搭建到精度达标的完整步骤
人工智能·pytorch·python·昇腾
Mintopia2 分钟前
🧩 Codex 配置自定义指令指南
人工智能·llm·claude
一个处女座的程序猿4 分钟前
AGI:《从规模扩张到研究驱动:Ilya Sutskever畅谈AI泛化瓶颈、人类学习启事与超级智能未来之路》
人工智能·llms·ilya sutskever
Dfreedom.5 分钟前
正则化全面解析:从过拟合防治到模型优化之道
深度学习·神经网络·机器学习·正则化·过拟合
lxmyzzs7 分钟前
【图像算法 - 36】医疗应用:基于 YOLOv12 与 OpenCV 的高精度脑肿瘤检测系统实现
python·深度学习·opencv·yolo·计算机视觉·脑肿瘤检测
工藤学编程8 分钟前
零基础学AI大模型之Milvus实战:Attu可视化安装+Python整合全案例
人工智能·python·milvus