鸢尾花Iris训练数据和测试数据的分割和训练数据的散点图矩阵绘制

鸢尾花Iris训练数据和测试数据的分割和训练数据的散点图矩阵绘制

鸢尾花Iris训练数据和测试数据的分割和训练数据的散点图矩阵绘制

一、训练数据和测试数据

1.1 训练数据(training data)

用于构建机器学习模型的数据,叫作训练数据(training data)或训练集(training set)。

1.2 测试数据(test data)

用于评估模型性能的数据,称作测试数据(test data)或测试集(test set)或留出集(hold-out set)。

1.3 泛化能力 (Generalization ability)

泛化能力 (Generalization ability) 指的是一个模型在未见过的数据上的表现能力。 它衡量一个模型学习到的知识是否能够推广到新的、不同的数据,而不是仅仅在训练数据上表现良好。 一个具有良好泛化能力的模型,即使面对训练数据中未出现的情况,也能做出准确的预测或决策。

二、训练数据和测试数据分割

2.1 训练数据和测试数据的比例

训练数据与测试数据的分配比例可以是随意的,但是以25%的数据作为测试数据是一种好的经验法则。

训练集和测试集: 评估泛化能力的关键在于将数据集分成训练集和测试集。模型在训练集上进行学习,然后在从未见过数据的测试集上进行评估。测试集上的表现才是对泛化能力的真正检验。

2.2 Python中scikit-learn中训练数据和测试数据分割方法

在scikit-learn中,可以使用train_test_split函数进行数据集的分割。

例如,以鸢尾花数据集分割程序为例子:

python 复制代码
## 1. 从sklearn中加载数据集datasets
from sklearn import datasets
## 2.取出datasets数据集中的鸢尾花数据赋值给iris
iris = datasets.load_iris()    #iris为字典类型数据

## 3. 数据集分割为训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris['data'],iris['target'],random_state=0)

## 4.对训练集结构进行查看
print('X_train shape:{}'.format(X_train.shape))
print('y_train shape:{}'.format(y_train.shape))

## 5.对测试集结构进行查看
print('X_test shape:{}'.format(X_test.shape))
print('y_test shape:{}'.format(y_test.shape))

运行结果:

图1 运行结果

三、基于散点图矩阵的数据观察

3.1 安装pandas工具包

在电脑cmd指令窗,输入如下代码

python 复制代码
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成如图2所示。

图2 pandas工具包安装过程

3.2 安装mglearn工具包

在电脑cmd指令窗,输入如下代码

python 复制代码
pip install mglearn -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成如图3所示。

图3 mglearn工具包安装过程

3.3 绘制散点图矩阵

在绘制散点图矩阵前,除了安装pandas工具包、mglearn工具包外,还需要安装了sklearn工具包,matplotlib工具包等。

绘制散点图矩阵代码如下:

python 复制代码
## 1. 从sklearn中加载数据集datasets
from sklearn import datasets
## 2.取出datasets数据集中的鸢尾花数据赋值给iris
iris = datasets.load_iris()    #iris为字典类型数据

## 3. 数据集分割为训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris['data'],iris['target'],random_state=0)

## 4.对训练集结构进行查看
print('X_train shape:{}'.format(X_train.shape))
print('y_train shape:{}'.format(y_train.shape))

## 5.对测试集结构进行查看
print('X_test shape:{}'.format(X_test.shape))
print('y_test shape:{}'.format(y_test.shape))


## 6.散点图矩阵绘制
import matplotlib.pyplot as plt     #使用缩减的plt代替matplotlib
import pandas as pd
import mglearn
from pandas.plotting import scatter_matrix
iris_dataframe=pd.DataFrame(X_train,columns=iris.feature_names)
grr=scatter_matrix(iris_dataframe,c=y_train,figsize=(16,16),marker='o',hist_kwds={'bins':20},s=60,alpha=.8,cmap=mglearn.cm3)
plt.show()   #图显示

运行结果如图4所示:

图4 Iris数据集的散点图矩阵,按类别标签着色

四、总结

本文以鸢尾花数据iris数据为例,首先介绍了鸢尾花Iris数据分割为训练数据和测试数据并对train_test_split函数进行使用分割,最后对训练数据的散点图矩阵绘制进行了代码介绍并绘图。

相关推荐
阿_旭4 小时前
基于YOLO26深度学习的交警手势识别系统【python源码+Pyqt5界面+数据集+训练代码】
人工智能·python·深度学习·交警手势识别
6+h5 小时前
【Spring】AOP核心之原始对象与代理对象
java·python·spring
w_a_o5 小时前
传统配方+机器学习:福尔蒂新材料用15年经验构建梯度回归预测模型(Python开源预告)
python·机器学习·回归·kmeans·宽度优先
jiet_h5 小时前
Python tempfile 深入实战:安全、优雅地处理临时文件与临时目录
python
摩尔曼斯克的海5 小时前
力扣面试题--双指针类
python·算法·leetcode
witAI5 小时前
gemini3.1拆短剧2025解析,多模态模型如何重塑内容创作流程
人工智能·python
love530love5 小时前
Windows 11 源码编译 vLLM 0.16 完全指南(CUDA 12.6 / PyTorch 2.7.1+cu126)
人工智能·pytorch·windows·python·深度学习·comfyui·vllm
zach01276 小时前
GEO优化的算力贫困悖论:基于数字地缘政治的量子搜索语义重构
人工智能·python·重构
AsDuang7 小时前
Python 3.12 MagicMethods - 28 - __rsub__
开发语言·python
Σίσυφος19007 小时前
PCL聚类 之 欧式聚类(最常用)
算法·机器学习·聚类