机器学习Python代码实战(二)分类算法:k-最近邻

一.k-最近邻算法步骤

1.选择适当的k值。它表示在预测新的数据点时要考虑的邻居数量。

2.计算距离。计算未知点与其他所有点之间的距离。常用的距离计算方法主要有欧氏距离,曼哈顿距离等。

3.选择邻居。在训练集中选择与要预测的数据点距离最近的k个邻居。

4.预测响应。统计这k个邻居中各类别的数量,并将要预测的数据点预测为这k个邻居中数量最多的类别。

下面以使用K-最近邻算法预测糖尿病(不需要特征标准化)为例说明k-最近邻算法的使用。

二.导入库和数据集

其中变量的中文含义如下:

Pregnancies:怀孕次数

Glucose:葡萄糖测试值

BloodPressure:血压

SkinThickness:皮肤厚度

Insulin:胰岛素

BMI:身体质量指数

Predigree:糖尿病遗传函数

Age:年龄

Outcome:糖尿病标签(即预测结果)

三.数据清洗

可以看到在上一步中某些列均出现了异常值0,此时需要进行数据清洗把异常值先替换为NaN,然后用该列的平均值填充。

四.划分测试集和训练集

先获取x,y如下。

然后进行训练集和测试集的划分,依旧是训练集占80%,测试集占20%。打印x的测试集如下。

五.模型训练

由于本数据集的自变量之间的数量级差别不是很大,故不需要使用特征标准化。

先导入k-最近邻分类器,再开始在训练集上训练模型

六.预测结果并输出混淆矩阵

混淆矩阵可视化如下:

采用准确率(Accurancy),精确率(precision),召回率(Recall),F1分数(F1 score)来评估模型。

模型的准确率、精确率、召回率和 F1 分数都在 50% 到 70% 之间,说明模型有一定的预测能力,但效果并不是特别好。

因此,我们尝试改进模型。

七.尝试优化

试着采用改变K值的方法。

把k值设置为6,运行。得到混淆矩阵如下。

可视化如下:

接下来计算指标值。

模型的准确率、精确率、召回率和 F1 分数都在 50% 到 80% 之间,说明模型有较好的预测能力,但仍有改进空间。

至于后续的优化,可能就需要继续调整k值或者采用其他的分类算法了,在这里不做过多讨论。

欢迎各位大佬批评指正,别忘了点赞加关注喔~

相关推荐
程序员大雄学编程18 分钟前
「机器学习笔记12」支持向量机(SVM)详解:从数学原理到Python实战
笔记·机器学习·支持向量机
火白学安全23 分钟前
《Python红队攻防脚本零基础编写:入门篇(一)》
python·安全·web安全·网络安全·系统安全
JJJJ_iii27 分钟前
【机器学习03】学习率与特征工程、多项式回归、逻辑回归
人工智能·pytorch·笔记·学习·机器学习·回归·逻辑回归
梦想的初衷~1 小时前
Python驱动的无人机多光谱-点云融合技术在生态三维建模与碳储量、生物量、LULC估算中的全流程实战
python·无人机·遥感·多光谱
一晌小贪欢1 小时前
Python爬虫第3课:BeautifulSoup解析HTML与数据提取
爬虫·python·网络爬虫·beautifulsoup·python爬虫·python3·requests
好家伙VCC1 小时前
**发散创新:渗透测试方法的深度探索与实践**随着网络安全形势日益严峻,渗透测试作为评估系统安全的
java·python·安全·web安全·系统安全
机器学习之心1 小时前
一个基于无干扰增量容量(IC)和差分电压(DV)分析的锂离子电池健康状态(SOH)与剩余寿命(RUL)预测的Python实现
python
wan5555cn3 小时前
国产电脑操作系统与硬盘兼容性现状分析:挑战与前景评估
人工智能·笔记·深度学习·机器学习·电脑·生活
BullSmall4 小时前
汽车HIL测试:电子开发的关键验证环节
人工智能·机器学习·自动驾驶
Bellafu6667 小时前
selenium常用的等待有哪些?
python·selenium·测试工具