K-Means和KNN

主要区别

从无序 ---> 有序

从K-Means ---> KNN

  • KNN:监督学习,类别是已知的,对已知分类的数据进行训练和学习,找到不同类的特征,再对未分类的数据进行分类。
  • K-Means:无监督学习,事先不知道数据有几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。

KNN

原理

将预测点与所有点的距离进行计算,然后保存并排序,选出前面K个值看看哪些类别比较多,则预测的点就属于哪一类。

KNN也可以用于回归预测

算法步骤

对未知类别属性的数据集中每个点依次执行以下操作:

  1. 计算已知类别数据集中的点与当前点之间的距离;
    通常使用的是欧氏距离
  2. 按照距离递增次序排序;
  3. 选取与当前点距离最小的k个点;
    如何确定k?
    通过交叉验证,从选取一个较小的k值开始,不断增加k的值,然后计算验证集合的方差,最终找到一个比较合适的k值。
  4. 确定前k个点所在类别的出现频率;
  5. 返回前k个点出现频率最高的类别作为当前点的预测分类。

K-Means

原理

随机选取质心------计算各样本点和质心的距离后分类------再次选择新的质心

【扩展】

邻近度函数(即距离计算):

(1)曼哈顿距离:质心------中位数,目标函数------最小化对象到簇质心的距离和;

(2)平方欧几里得距离:质心------均值,目标函数------最小化对象到簇质心的距离的平方和;

(3)余弦距离:质心------均值,目标函数------最大化对象与其质心的余弦相似度和;

(4)Bregman散度:质心------均值,目标函数------最小化对象到簇质心的Bregman散度和。

算法步骤

  1. 随机选取k个质心(k值取决于想聚成几类);
  2. 计算样本到质心的距离,距离质心近的归为一类,分为k类;
  3. 求出分类后的每类的新质心;
  4. 再次计算样本到新质心的距离,距离质心距离近的归为一类;
  5. 判断新旧聚类是否相同,如果相同就代表已经聚类成功,如果没有则循环2-4。


相关推荐
是一个Bug7 小时前
Agent(智能体)应用 的入门学习路径
学习·机器学习
kkeeper~8 小时前
0基础C语言积跬步之数据在内存中的存储
c语言·数据结构·算法
wabs6669 小时前
关于贪心算法的一些自我总结【力扣45.跳跃游戏II】【灵感来源:代码随想录】
算法·贪心算法·复盘
盖小雅9 小时前
自动化排班如何破解劳动法合规难题:从规则冲突到可追溯的排班表
大数据·运维·机器学习·自动化
2401_876964139 小时前
【湖北专升本】2026湖北专升本真题PDF+备考资料汇总
数据结构·人工智能·经验分享·深度学习·算法·计算机视觉
嗝o゚10 小时前
CANN GE 算子融合——融合算法与调度策略
算法·昇腾·cann·ge
小江的记录本10 小时前
【JVM虚拟机】垃圾回收GC:垃圾回收算法:标记-清除、标记-复制、标记-整理、分代收集(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·算法·安全·面试
踏歌~10 小时前
YA期货准备:0 了解期货
机器学习
Ulyanov11 小时前
用声明式语法重新定义Python桌面UI:QML+PySide6现代开发入门(一)
开发语言·python·算法·ui·系统仿真·雷达电子对抗仿真
数据科学小丫11 小时前
特征工程处理
人工智能·算法·机器学习