使用sklearn-SGDClassifier分类mnist数据集中‘5‘,并使用交叉验证评估模型

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import cross_val_score

mnist = fetch_openml('mnist_784', version=1, parser='auto')

X, y = mnist['data'], mnist['target']

X = np.array(X)
y = np.array(y)

X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

shuffle_index = np.random.permutation(60000)
X_train, y_train = X_train[shuffle_index], y_train[shuffle_index]

y_train_5 = (y_train=='5')
y_test_5 = (y_test=='5')

clf = SGDClassifier(random_state=42)
clf.fit(X_train,y_train_5)

result_X_66666 = clf.predict([X[66666]])
print(result_X_66666)

image = X[66666].reshape(28, 28)
plt.imshow(image, cmap='gray') # 图像以灰度模式显示
plt.show()

result_cross_val_score= cross_val_score(clf, X_train, y_train_5, cv=3)
print(result_cross_val_score)

1. 下图报错也许是因为尝试使用shuffle_index数组来索引X_train[]DataFrame时,该索引数组中的值被误解。将X和y转换为numpy数组,然后再进行随机洗牌操作,解决报错。

X = np.array(X)

y = np.array(y)

2. shuffle_index = np.random.permutation(60000)

random.permutation函数生成一个长度为60000的随机排列数组。这个数组shuffle_index可以用于打乱数据集,确保数据的随机性。

3. 以图片形式显示X[66666]

image = X[66666].reshape(28, 28)

plt.imshow(image, cmap='gray')

plt.show()

4. clf = SGDClassifier(random_state=42)

random_state参数是许多算法中用于控制随机数生成的种子值的一个常见参数。通过设置random_state为一个固定的整数值,可以确保代码的随机性部分是可重复的,这意味着每次运行代码时,如果输入数据不变,使用相同的random_state值将得到完全相同的结果。

5. 结果​​​​​​​

6. 学习视频

4-交叉验证实验分析_哔哩哔哩_bilibili

相关推荐
赛丽曼27 分钟前
机器学习-分类算法评估标准
人工智能·机器学习·分类
汤姆和佩琦2 小时前
2025-1-20-sklearn学习(42) 使用scikit-learn计算 钿车罗帕,相逢处,自有暗尘随马。
人工智能·python·学习·机器学习·scikit-learn·sklearn
paradoxjun1 天前
落地级分类模型训练框架搭建(1):resnet18/50和mobilenetv2在CIFAR10上测试结果
人工智能·深度学习·算法·计算机视觉·分类
两千连弹1 天前
机器学习 ---朴素贝叶斯
人工智能·机器学习·numpy·概率论·sklearn
诸神缄默不语3 天前
用sklearn运行分类模型,选择AUC最高的模型保存模型权重并绘制AUCROC曲线(以逻辑回归、随机森林、梯度提升、MLP为例)
分类·逻辑回归·sklearn
jieshenai3 天前
企业分类相似度筛选实战:基于规则与向量方法的对比分析
人工智能·自然语言处理·分类
一只码代码的章鱼4 天前
分类问题(二元,多元逻辑回归,费歇尔判别分析)spss实操
大数据·数学建模·分类·数据挖掘·逻辑回归
丶21364 天前
【分类】【损失函数】处理类别不平衡:CEFL 和 CEFL2 损失函数的实现与应用
人工智能·分类·损失函数
机器学习之心4 天前
SCSSA-BiLSTM基于改进麻雀搜索算法优化双向长短期记忆网络多特征分类预测Matlab实现
matlab·分类·数据挖掘
Zda天天爱打卡5 天前
【机器学习实战入门】基于深度学习的乳腺癌分类
大数据·人工智能·深度学习·机器学习·分类·数据挖掘