分类算法3.1 sklearn转换器和估计器;3.2 K-近邻算法

3.1 sklearn转换器和估计器

转换器

估计器(estimator)

3.1.1 sklearn转换器 ------特征工程的父类

1.实例化(实例化的是一个转换器类(transforer))

2.调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)

标准化:

(x-mean)/std

fit_transform()

fit() :计算 每一列的平均值,标准差

transform() :(x-mean)/std进行最终的转换

3.1.2 估计器(sklearn机器学习算法的实现)

估计器工作流程

估计器(estimator)

  1. 实例化一个estimator

  2. estimator.fit(x_train,y_train) 计算

  3. 模型评估:

1) 直接比对真实值和预测值

y_preidct = estimator.predict(x_test)

y_test == y_predict

  1. 计算准确率

accuray = estimator.score(x_test,y_test)

3.2 K-近邻算法

3.2.1什么是K-近邻算法

1.K-近邻算法(KNN)原理

这个算法是机器学习中一个比较经典的算法。

定义:

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

距离公式:

求算距离有以下几种方法:

曼哈顿距离,绝对值距离,明可夫斯基距离。

2 电影类型分析

电影类型分析

k = 1 爱情片

k = 2 爱情片

k = 6 无法确定

k = 7 动作片

3 问题

如果取的最近的电影数量不一样,会是什么结果?

k值取得过小,容易受到异常点的影响

k值取得过大,样本不均衡的影响

结合前面的约会对象数据,分析K-近邻算法需要做什么样的处理

3.2.2 K-近邻算法API

3.2.3 案例1 : 鸢尾花种类预测

1 数据集介绍

iris数据集是常用的分类实验室数据集,有Fsisher,1936收集整理,iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。

1)获取数据

2)数据集划分

3)特征工程

标准化

4)KNN预估器流程

5)模型评估

pycharm代码:

3.2.4 K-近邻总结

优点:简单,易于理解,易于实现,无需训练

缺点:懒惰算法,对测试样本分类时的计算量大,内存开销大

必须使用指定k值,k值选择不当则分类精度不能保证

使用场景:小数据场景,几千-几万样本,具体场景具体业务去测试

相关推荐
编程界一哥8 小时前
wlanapi.dll错误0xc000007b怎么办?官方安全下载与修复教程
数据挖掘
编程界一哥8 小时前
vcruntime140_1.dll官方下载安全安装教程:VC++运行库x86 x64版本选择指南
数据挖掘
研知有术一站式科研平台10 小时前
研知有术论文辅导丨文献综述的三种类型和写法(附直接能用的写作模板)
人工智能·经验分享·机器学习·数据挖掘·论文笔记
高洁0110 小时前
【无标题】如何利用知识图谱实现推理和计算
人工智能·机器学习·数据挖掘·transformer·知识图谱
向哆哆12 小时前
人脸眼部特征检测数据集(千张图片已划分、已标注)适用于YOLO系列深度学习分类检测任务
深度学习·yolo·分类
程序员猫哥_12 小时前
零基础用AI建站工具极速上手教程
数据挖掘
阳艳讲ai12 小时前
企业AI培训评测:线下课vs线上营vs陪跑服务,谁能让员工真学会AI?附ROI选型指南
大数据·人工智能·数据挖掘
Roselind_Yi1 天前
多模态数据挖掘前沿:生物医学与情感分析领域论文深度解析
人工智能·python·数据挖掘·nlp·gnn·情感分析·loss
AI生成网页工具1 天前
2026最新电脑预装软件卸载工具哪个好?无捆绑软件卸载工具推荐与对比
数据挖掘
高洁011 天前
基于知识图谱的故障推理方法与算法
人工智能·机器学习·数据挖掘·transformer·知识图谱