KNN算法

1.KNN算法简介

KNN思想、分类和回归问题处理流程

2.KNN算法API介绍

分类、回归实现

3.距离度量

常用距离计算方法

4.特征预处理

归一化、标准化、鸢尾花识别案例

5.超参数选择方法

交叉验证、网格搜索、手写数字识别案例

1. KNN算法简介

KNN的原理:找到最近的K个,投票或者求均值。找到最近的K个邻居,然后这K个邻居进行投票,谁的票多就是谁 ==》这属于KNN的分类思路;
K-近邻算法(K Nearest Neighbor,简称KNN) :比如根据你的"邻居"来推断出你的类别;
KNN算法思想 :如果一个样本在特定空间中的 K个最相似的样本 中的大多数属于一个类别,则该样本也属于这个类别;

(如何确定样本之间的相似性?通过距离!)

K-近邻算法:

样本相似性:样本都属于一个人物数据集的,样本距离越近则越相似;

利用K紧邻算法预测电影类型;

欧氏距离=对应维度差值平方和,开平方根;

1.分别计算10号电影与前9个电影的距离;k=5找到最相似的电影类别,来决定10号电影的类别:K=5时找到距离最近的5个(红色打勾的),再根据投票最多的(绿色打勾的),选出电影类型,投票最多的是喜剧片,所以最终结果是喜剧片;

2.K值选择:

图中已算出所有的距离,K值小了(如K=1)会发生过拟合还是欠拟合?K值大了(如K=n,n是长度,有几个 k就是几)会发生过拟合还是欠拟合?:K值过少模型复杂会过拟合 ,K=1时数据很少,导致模型学到大量的脏数据,导致模型复杂,所以K=1是过拟合;K值过大模型简单会欠拟合 ,当K=n时,模型会很简单,所以会欠拟合;
K值过小 :用较小邻域中的训练实例进行预测;容易受到异常点的影响;K值的减小就意味着整体模型变得复杂,容易发生过拟合;
K值过大 :用较大邻域中的训练实例进行预测;受到样本均衡的问题;且K值的增大就意味着整体的模型变得简单,欠拟合;
( K值过小会导致过度分析样本中的内容,导致模型变得复杂,会发生过拟合;K值过大永远只会取类别最多的那个分类,此时事情变得简单,所以会发生欠拟合!! )

如何对K超参数进行调优? :需要一些方法来寻找这个最合适的K值交叉验证、网格搜索
超参:超参就是需要用户手动录入的数据;(如K值到底是3还是5,在这里对结果有影响;到底选3还是选5,就需要通用特定的方法,如交叉验证、网格搜索;)

2. KNN算法API介绍

分类、回归实现。总结:0️⃣分类问题是投票、多数表决;回归问题是求平均值,但最终标签列得是数值型,数值才能求均值;

1️⃣KNN解决问题的两种思路 :分类问题、回归问题;
2️⃣算法思想 :若一个样本在特征空间中的k个最相似的样本大多数属于某一个类别,则该样本也属于这个类别;(即物以类聚,投票即可,属于分类问题!最相似的相似性怎么找?:根据距离来找,如 欧氏距离,简单说就是勾股定理;)
3️⃣相似性 :欧氏距离;
4️⃣分类和回归的区别

相同点 :都属于有监督学习:有特征、有标签;不同点 :标签不连续是分类问题,标签连续是回归问题;分类是投票,回归是均值;
5️⃣ KNN分类流程

分类流程 回归流程
1.计算未知样本到每一个训练样本的距离(即要算距离) 1.计算未知样本到每一个训练样本的距离
2.将训练样本根据距离大小升序排列 2.将训练样本根据距离大小升序排列
3.取出距离最近的K个训练样本 3.取出距离最近的K个训练样本
4.进行多数表决,统计K个样本中哪个类别的样本个数最多 4.把这个K个样本的目标值计算其平均值
5.将未知的样本归属到出现次数最多的类别 5.作为将未知的样本预测的值

(表简述:1.算测试集到训练集每个样本之间的距离,2.按照距离进行升序排列,3.找到最近的K个,对于4:分类是投票,哪个类别多就以它的结果作为最终预测;回归是计算均值,把均值最为最终结果;)

6️⃣ K值的选择:K值需要手动传入,这种手动传入的值叫超参 ,超参的选择可以通过很多方式:交叉验证、网格搜索。K值的选择不能过大也不能过小:K值过小模型复杂 会发生过拟合,K值过大模型简单 会发生欠拟合

相关推荐
To_OC10 小时前
LC 207 课程表:刚学图论那会儿,我连这是拓扑排序都没看出来
javascript·算法·leetcode
To_OC10 小时前
LC 208 实现 Trie 前缀树:曾被名字劝退,写完发现是送分题
javascript·算法·leetcode
BadBadBad__AK12 小时前
线段树维护区间 k 次方和
c++·数学·算法·stl
_清歌1 天前
DSpark 深度解读:DeepSeek-V4 如何用「半自回归」把推理速度提升 85%
算法
统计实现局1 天前
SVD 的三步走:双对角化、Givens 收敛、排序
算法
躬行见万象1 天前
《VLA 系列》UniLab 强化训练 | G1 机器人 |复现
算法
统计实现局1 天前
对称不定分解(Bunch-Kaufman):为什么 Cholesky 不够用
算法
统计实现局1 天前
dqrsl 拆解:拿着 QR 结果能算出哪 5 种东西
算法
统计实现局1 天前
为什么 Cholesky 求逆比 Gauss-Jordan 快一倍——行列式溢出防护详
算法