【机器学习】使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测

一、KNN算法概念

K最近邻(K-Nearest Neighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一,是著名的模式识别统计学方法,在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。

二、对鸢尾花数据集进行预测

1、代码示例:

复制代码
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
# 提取特征
X = iris.data
# 提取标签
y = iris.target

# 将数据集划分为训练集和测试集,测试集占比20%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建KNN分类器,设置K值为3
knn = KNeighborsClassifier(n_neighbors=3)

# 使用训练集对KNN分类器进行训练
knn.fit(X_train, y_train)

# 使用训练好的模型对测试集进行预测
y_pred = knn.predict(X_test)

# 计算预测准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"鸢尾花数据集预测准确率: {accuracy}")

2、代码解释

①借助load_iris()函数加载鸢尾花数据集。

②把数据集拆分为特征X和标签y

③运用train_test_split()函数将数据集按 80% 训练集、20% 测试集的比例划分。

④四创建KNeighborsClassifier对象,设定n_neighbors为 3,也就是 K 值为 3。

⑤利用fit()方法对模型进行训练。

⑥使用predict()方法对测试集进行预测。

⑦最后通过accuracy_score()函数算出预测准确率。

三、对自定义数据集进行预测

1、代码示例

复制代码
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 自定义数据集
# 特征矩阵
X = np.array([[1, 2], [2, 3], [3, 1], [4, 2], [5, 3], [6, 1]])
# 标签向量
y = np.array([0, 0, 0, 1, 1, 1])

# 将数据集划分为训练集和测试集,测试集占比20%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建KNN分类器,设置K值为3
knn = KNeighborsClassifier(n_neighbors=3)

# 使用训练集对KNN分类器进行训练
knn.fit(X_train, y_train)

# 使用训练好的模型对测试集进行预测
y_pred = knn.predict(X_test)

# 计算预测准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"自定义数据集预测准确率: {accuracy}")

2、代码解释

①手动构建自定义的特征矩阵X和标签向量y

②同样使用train_test_split()函数把数据集划分为训练集和测试集。

③创建KNeighborsClassifier对象并设定 K 值。

④用fit()方法训练模型。

⑤利用predict()方法预测测试集。

⑥最后用accuracy_score()函数计算预测准确率。

可以根据实际需求调整 K 值以及数据集,以此来观察预测结果的变化。

相关推荐
DS随心转APP3 分钟前
AI导出鸭:AI 文档排版与一键导出实战指南
人工智能·ai·chatgpt·deepseek·ai导出鸭
geneculture5 分钟前
语(暨各级各类字组)对接外来的词和句以及本土的言和语:言和语的关系及双重形式化彻底解决问题
人工智能·语言学·融智学应用场景·哲学与科学统一性·融智时代(杂志)
凯丨5 分钟前
agentmemory on NAS 完整部署文档(Tailscale + DeepSeek 压缩 + 局域网 viewer)
人工智能
YsyaaabB5 分钟前
LangChain作业二---多语言翻译Prompt
开发语言·python·langchain
weixin_446260856 分钟前
Vortex:高效可编程稀疏注意力机制用于大模型推理服务
人工智能
AI科技星7 分钟前
精细结构常数α的多维度物理比值特性及空间螺旋模型研究
人工智能·线性代数·架构·概率论·学习方法
zhangfeng11337 分钟前
头部AI公司模以OpenAI、DeepSeek为代表型版本迭代训练策略深度解析:重新训练 vs. 增量训练(前瞻性技术推演
人工智能
HappyAcmen7 分钟前
2.PDF长文档完整读取
python·pdf·rag
装不满的克莱因瓶8 分钟前
掌握感知器的学习原理
人工智能·python·神经网络·算法·ai·卷积神经网络
nashane11 分钟前
HarmonyOS 6学习:句柄泄漏(Fd Leak)从“崩溃现场”到“代码行”的精准狙击指南
学习·华为·音视频·harmonyos