分类算法3.1 sklearn转换器和估计器;3.2 K-近邻算法

3.1 sklearn转换器和估计器

转换器

估计器(estimator)

3.1.1 sklearn转换器 ------特征工程的父类

1.实例化(实例化的是一个转换器类(transforer))

2.调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)

标准化:

(x-mean)/std

fit_transform()

fit() :计算 每一列的平均值,标准差

transform() :(x-mean)/std进行最终的转换

3.1.2 估计器(sklearn机器学习算法的实现)

估计器工作流程

估计器(estimator)

  1. 实例化一个estimator

  2. estimator.fit(x_train,y_train) 计算

  3. 模型评估:

1) 直接比对真实值和预测值

y_preidct = estimator.predict(x_test)

y_test == y_predict

  1. 计算准确率

accuray = estimator.score(x_test,y_test)

3.2 K-近邻算法

3.2.1什么是K-近邻算法

1.K-近邻算法(KNN)原理

这个算法是机器学习中一个比较经典的算法。

定义:

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

距离公式:

求算距离有以下几种方法:

曼哈顿距离,绝对值距离,明可夫斯基距离。

2 电影类型分析

电影类型分析

k = 1 爱情片

k = 2 爱情片

k = 6 无法确定

k = 7 动作片

3 问题

如果取的最近的电影数量不一样,会是什么结果?

k值取得过小,容易受到异常点的影响

k值取得过大,样本不均衡的影响

结合前面的约会对象数据,分析K-近邻算法需要做什么样的处理

3.2.2 K-近邻算法API

3.2.3 案例1 : 鸢尾花种类预测

1 数据集介绍

iris数据集是常用的分类实验室数据集,有Fsisher,1936收集整理,iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。

1)获取数据

2)数据集划分

3)特征工程

标准化

4)KNN预估器流程

5)模型评估

pycharm代码:

3.2.4 K-近邻总结

优点:简单,易于理解,易于实现,无需训练

缺点:懒惰算法,对测试样本分类时的计算量大,内存开销大

必须使用指定k值,k值选择不当则分类精度不能保证

使用场景:小数据场景,几千-几万样本,具体场景具体业务去测试

相关推荐
艾思科蓝 AiScholar4 小时前
【ACM 独立出版 | EI 快检索】2025年数据挖掘与项目管理国际研讨会 (DMPM 2025)
人工智能·网络安全·数据挖掘·数据分析·创业创新·数据可视化·数据库管理员
tzc_fly5 小时前
Nature | TabPFN:表格基础模型用于小规模数据分析
数据挖掘·数据分析
武帝为此8 小时前
【K近邻分类算法介绍】
人工智能·分类·数据挖掘
小王毕业啦13 小时前
2011-2020年 全国省市县-数字普惠金融指数&数字经济指数&绿色金融指数&县域数字乡村指数
大数据·人工智能·数据挖掘·数据分析·毕业论文·数据统计·社科数据
精神病不行计算机不上班16 小时前
【数据仓库与数据挖掘基础】第二章 数据仓库原理
数据仓库·数据挖掘·spark
杜子腾dd18 小时前
13. Pandas :使用 to_excel 方法写入 Excel文件
大数据·python·数据挖掘·excel·numpy·pandas
十三画者20 小时前
【工具】IntelliGenes使用多基因组图谱进行生物标志物发现和预测分析的新型机器学习管道
人工智能·python·机器学习·数据挖掘·数据分析
shboka9207021 天前
如何通过数据分析提升美容院顾客复购率
大数据·数据挖掘·数据分析
十三画者1 天前
【工具】survex一个解释机器学习生存模型的R包
人工智能·机器学习·数据挖掘·数据分析·r语言·数据可视化
羊小猪~~1 天前
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”,准确率090%+,pytorch复现
网络·人工智能·pytorch·python·深度学习·机器学习·分类