KNN算法

1.KNN算法简介

KNN思想、分类和回归问题处理流程

2.KNN算法API介绍

分类、回归实现

3.距离度量

常用距离计算方法

4.特征预处理

归一化、标准化、鸢尾花识别案例

5.超参数选择方法

交叉验证、网格搜索、手写数字识别案例

1. KNN算法简介

KNN的原理:找到最近的K个,投票或者求均值。找到最近的K个邻居,然后这K个邻居进行投票,谁的票多就是谁 ==》这属于KNN的分类思路;
K-近邻算法(K Nearest Neighbor,简称KNN) :比如根据你的"邻居"来推断出你的类别;
KNN算法思想 :如果一个样本在特定空间中的 K个最相似的样本 中的大多数属于一个类别,则该样本也属于这个类别;

(如何确定样本之间的相似性?通过距离!)

K-近邻算法:

样本相似性:样本都属于一个人物数据集的,样本距离越近则越相似;

利用K紧邻算法预测电影类型;

欧氏距离=对应维度差值平方和,开平方根;

1.分别计算10号电影与前9个电影的距离;k=5找到最相似的电影类别,来决定10号电影的类别:K=5时找到距离最近的5个(红色打勾的),再根据投票最多的(绿色打勾的),选出电影类型,投票最多的是喜剧片,所以最终结果是喜剧片;

2.K值选择:

图中已算出所有的距离,K值小了(如K=1)会发生过拟合还是欠拟合?K值大了(如K=n,n是长度,有几个 k就是几)会发生过拟合还是欠拟合?:K值过少模型复杂会过拟合 ,K=1时数据很少,导致模型学到大量的脏数据,导致模型复杂,所以K=1是过拟合;K值过大模型简单会欠拟合 ,当K=n时,模型会很简单,所以会欠拟合;
K值过小 :用较小邻域中的训练实例进行预测;容易受到异常点的影响;K值的减小就意味着整体模型变得复杂,容易发生过拟合;
K值过大 :用较大邻域中的训练实例进行预测;受到样本均衡的问题;且K值的增大就意味着整体的模型变得简单,欠拟合;
( K值过小会导致过度分析样本中的内容,导致模型变得复杂,会发生过拟合;K值过大永远只会取类别最多的那个分类,此时事情变得简单,所以会发生欠拟合!! )

如何对K超参数进行调优? :需要一些方法来寻找这个最合适的K值交叉验证、网格搜索
超参:超参就是需要用户手动录入的数据;(如K值到底是3还是5,在这里对结果有影响;到底选3还是选5,就需要通用特定的方法,如交叉验证、网格搜索;)

2. KNN算法API介绍

分类、回归实现。总结:0️⃣分类问题是投票、多数表决;回归问题是求平均值,但最终标签列得是数值型,数值才能求均值;

1️⃣KNN解决问题的两种思路 :分类问题、回归问题;
2️⃣算法思想 :若一个样本在特征空间中的k个最相似的样本大多数属于某一个类别,则该样本也属于这个类别;(即物以类聚,投票即可,属于分类问题!最相似的相似性怎么找?:根据距离来找,如 欧氏距离,简单说就是勾股定理;)
3️⃣相似性 :欧氏距离;
4️⃣分类和回归的区别

相同点 :都属于有监督学习:有特征、有标签;不同点 :标签不连续是分类问题,标签连续是回归问题;分类是投票,回归是均值;
5️⃣ KNN分类流程

分类流程 回归流程
1.计算未知样本到每一个训练样本的距离(即要算距离) 1.计算未知样本到每一个训练样本的距离
2.将训练样本根据距离大小升序排列 2.将训练样本根据距离大小升序排列
3.取出距离最近的K个训练样本 3.取出距离最近的K个训练样本
4.进行多数表决,统计K个样本中哪个类别的样本个数最多 4.把这个K个样本的目标值计算其平均值
5.将未知的样本归属到出现次数最多的类别 5.作为将未知的样本预测的值

(表简述:1.算测试集到训练集每个样本之间的距离,2.按照距离进行升序排列,3.找到最近的K个,对于4:分类是投票,哪个类别多就以它的结果作为最终预测;回归是计算均值,把均值最为最终结果;)

6️⃣ K值的选择:K值需要手动传入,这种手动传入的值叫超参 ,超参的选择可以通过很多方式:交叉验证、网格搜索。K值的选择不能过大也不能过小:K值过小模型复杂 会发生过拟合,K值过大模型简单 会发生欠拟合

相关推荐
KillerNoBlood3 小时前
2026移动端跨平台开发面经总结
android·算法·flutter·ios·移动开发·鸿蒙·kmp
basketball6163 小时前
C++ Lambda 表达式完全指南
开发语言·c++·算法
不知名的老吴3 小时前
C++中emplace函数的不适场景总结(三)
开发语言·c++·算法
玉树临风ives4 小时前
atcoder ABC 457 题解
数据结构·c++·算法
宵时待雨4 小时前
回溯算法专题1:递归
数据结构·c++·笔记·算法·leetcode·深度优先
爱思德学术4 小时前
【SPIE出版】黄冈师范学院主办!第四届大数据、计算智能与应用国际会议(BDCIA 2026)
大数据·算法·数据分析·云计算·etl
洛水水4 小时前
【力扣100题】40.二叉树中的最大路径和
算法·leetcode·深度优先
洛水水4 小时前
【力扣100题】37.从前序与中序遍历序列构造二叉树
c++·算法·leetcode
zyq99101_14 小时前
递归与动态规划实战代码解析
python·算法·蓝桥杯
橘白3165 小时前
rl笔记(一):策略梯度更新算法推导
人工智能·算法·机器人·强化学习