机器学习Python代码实战(二)分类算法:k-最近邻

一.k-最近邻算法步骤

1.选择适当的k值。它表示在预测新的数据点时要考虑的邻居数量。

2.计算距离。计算未知点与其他所有点之间的距离。常用的距离计算方法主要有欧氏距离,曼哈顿距离等。

3.选择邻居。在训练集中选择与要预测的数据点距离最近的k个邻居。

4.预测响应。统计这k个邻居中各类别的数量,并将要预测的数据点预测为这k个邻居中数量最多的类别。

下面以使用K-最近邻算法预测糖尿病(不需要特征标准化)为例说明k-最近邻算法的使用。

二.导入库和数据集

其中变量的中文含义如下:

Pregnancies:怀孕次数

Glucose:葡萄糖测试值

BloodPressure:血压

SkinThickness:皮肤厚度

Insulin:胰岛素

BMI:身体质量指数

Predigree:糖尿病遗传函数

Age:年龄

Outcome:糖尿病标签(即预测结果)

三.数据清洗

可以看到在上一步中某些列均出现了异常值0,此时需要进行数据清洗把异常值先替换为NaN,然后用该列的平均值填充。

四.划分测试集和训练集

先获取x,y如下。

然后进行训练集和测试集的划分,依旧是训练集占80%,测试集占20%。打印x的测试集如下。

五.模型训练

由于本数据集的自变量之间的数量级差别不是很大,故不需要使用特征标准化。

先导入k-最近邻分类器,再开始在训练集上训练模型

六.预测结果并输出混淆矩阵

混淆矩阵可视化如下:

采用准确率(Accurancy),精确率(precision),召回率(Recall),F1分数(F1 score)来评估模型。

模型的准确率、精确率、召回率和 F1 分数都在 50% 到 70% 之间,说明模型有一定的预测能力,但效果并不是特别好。

因此,我们尝试改进模型。

七.尝试优化

试着采用改变K值的方法。

把k值设置为6,运行。得到混淆矩阵如下。

可视化如下:

接下来计算指标值。

模型的准确率、精确率、召回率和 F1 分数都在 50% 到 80% 之间,说明模型有较好的预测能力,但仍有改进空间。

至于后续的优化,可能就需要继续调整k值或者采用其他的分类算法了,在这里不做过多讨论。

欢迎各位大佬批评指正,别忘了点赞加关注喔~

相关推荐
zero159712 小时前
Python 8天极速入门笔记(大模型工程师专用):第二篇-Python基础入门(变量、数据类型、print输出)
开发语言·笔记·python
koping_wu13 小时前
【Java并发】CompletableFuture详解:常用API和底层原理
java·开发语言·python
:mnong13 小时前
附图报价系统设计分析2
python·pyqt·openvino
阿钱真强道13 小时前
03 从 MLP 到 LeNet:一个分类模型,究竟是怎样做出判断的?
人工智能·分类·图像分类·softmax·多层感知机
源码之家13 小时前
计算机毕业设计:基于Python的美食推荐可视化系统 Django框架 可视化 协同过滤推荐算法 推荐系统 食物 食品 大数据 数据分析(建议收藏)✅
python·django·flask·课程设计·推荐算法·美食
源码之家13 小时前
计算机毕业设计:基于Python的美食数据采集可视化系统 Django框架 Scrapy爬虫 可视化 数据分析 大数据 机器学习 食物 食品(建议收藏)✅
python·算法·机器学习·信息可视化·课程设计
路小雨~13 小时前
经典神经网络结构学习笔记
rnn·学习·机器学习·cnn·ann
xx_xxxxx_13 小时前
常见多模态架构CLIP/BLIP/Llava/CogVLM
人工智能·深度学习·机器学习·transformer·多模态
Yao.Li13 小时前
Dify Workflow 硬核解读(万字长文)
人工智能·python
源码之家13 小时前
计算机毕业设计:Python智慧交通大数据监控系统 Flask框架 可视化 百度地图 汽车 车况 数据分析 大模型 机器学习(建议收藏)✅
大数据·python·算法·机器学习·信息可视化·flask·课程设计