使用scikit-learn中的KNN包实现对鸢尾花数据集的预测

引言

K最近邻(KNN)算法是一种简单且直观的分类算法。它通过计算数据点之间的距离来对新样本进行分类。鸢尾花数据集是一个经典的机器学习数据集,包含了三种不同类型的鸢尾花,每种类型由四个特征(花萼长度、花萼宽度、花瓣长度和花瓣宽度)描述。本文将使用scikit-learn中的KNN算法对该数据集进行分类预测。

KNN算法概述

KNN算法的核心思想是:对于一个未知类别的样本,通过计算该样本与已知样本的距离,选择距离最近的K个样本进行投票,最终将该样本分类为票数最多的类别。

KNN的优缺点:

  • 优点
    • 简单易懂,易于实现。
    • 对于小型数据集效果较好。
  • 缺点
    • 计算复杂度高,特别是数据量大时。
    • 对数据的尺度敏感,可能需要进行标准化处理。

代码展示

python 复制代码
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

#加载鸢尾花数据集
iris = datasets.load_iris()
#提取出特征数据
iris_X=iris.data
#目标标签
iris_y=iris.target

#会打乱数据
#test_size测试比例,train_test_split把训练数据和测试数据分开
X_train,X_test,y_train,y_test=train_test_split(iris_X,iris_y,test_size=0.3)

#训练模型
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train,y_train)

#预测值
print(knn.predict(X_test))

#真实值
print(y_test)

运行结果

总结

KNN算法是一种简单且有效的分类方法,尤其适用于小型数据集。在鸢尾花数据集上,KNN算法能够准确地对样本进行分类,并且选择合适的K值能够显著提升模型性能。

相关推荐
weixin_307779132 小时前
在AWS上使用KMS客户端密钥加密S3文件,同时支持PySpark读写和Snowflake导入
大数据·数据仓库·python·spark·云计算
忆~遂愿7 小时前
3大关键点教你用Java和Spring Boot快速构建微服务架构:从零开发到高效服务注册与发现的逆袭之路
java·人工智能·spring boot·深度学习·机器学习·spring cloud·eureka
eybk8 小时前
Qpython+Flask监控添加发送语音中文信息功能
后端·python·flask
weixin_307779139 小时前
Spark Streaming的背压机制的原理与实现代码及分析
大数据·python·spark
deephub9 小时前
十大主流联邦学习框架:技术特性、架构分析与对比研究
人工智能·python·深度学习·机器学习·联邦学习
西猫雷婶10 小时前
python学opencv|读取图像(四十七)使用cv2.bitwise_not()函数实现图像按位取反运算
开发语言·python·opencv
背太阳的牧羊人11 小时前
分词器的词表大小以及如果分词器的词表比模型的词表大,那么模型的嵌入矩阵需要被调整以适应新的词表大小。
开发语言·人工智能·python·深度学习·矩阵
码界筑梦坊12 小时前
基于Django的豆瓣影视剧推荐系统的设计与实现
后端·python·django·毕业设计
fmdpenny12 小时前
前后分离Vue3+Django 之简单的登入
后端·python·django
知识鱼丸13 小时前
machine learning自定义数据集使用框架的线性回归方法对其进行拟合
人工智能·机器学习·线性回归