聚类与回归

聚类

聚类属于非监督式学习(无监督学习),往往不知道因变量。

通过观察学习,将数据分割成多个簇。

回归

回归属于监督式学习(有监督学习),知道因变量。

通过有标签样本的学习分类器

聚类和回归的区别

在数据分类过程中,我们可以直接知道回归对应的具体类别名,但是在聚类过程中,我们只能知道聚类对应的类别与xxx是同一种类别。

比如:我们在使用分类处理一些水果时,我们可以知道某一个水果具体是什么水果,但是聚类我们只能知道这个水果和其他的某些水果是同一种水果,但是我们却不能知道具体的水果类型名是什么。

聚类的基本方法有三大类:

划分方法(K均值、K-Means)

通过反复迭代,先随机分配均值点, 根据均值点形成聚簇,形成聚簇之后,再调整均值点。调整均值点后,再进一步反复进行迭代,最后找到我们相应的聚簇。

层次方法(层次聚类法)

凝聚的(agglomeration)和分裂的(divisive)层次聚类图示

层次聚类有两种方法,一种是自底向上的方法,这种方法称为凝聚法。另一种方法是自下而上的方法,该方法又称为划分的方法。

凝聚法的过程:我们通过水来凝结成冰。首先根据数据进行相似性计算,把相似的数据形成一个簇,形成了各种小簇,进一步计算簇和簇之间的相似性,如果簇和簇之间的相似性更高,将他们合并形成更大的簇。从㡳向上凝聚,形成我们想要的一个聚簇的一个结束条件时,得到我们想要的一个聚簇(层次聚类的结束条件有很多方法,比如从㡳向上进行聚类时,当聚到第k个聚簇的时候,我们就停止迭代;另外一种,我们当进行迭代时,我们数据的相似性足够高,越往上走,聚簇和聚簇的相似性就会越来越低,当相似性的阈值低到一定程度时,就可以认为我的一个层次聚类停止,如此一来就得到了相应的聚簇,即为我们的层次聚类)

霍普金斯统计量

假如求出来的霍普金斯统计量数据接近1,这说明比较符合聚类的要求;若霍普金斯统计量接近0.5,则说明数据接近于均匀分布,不适合对其进行 均匀分布。

聚类的大致流程:

1、通过计算霍普金斯统计量判断数据质量,判断当前数据是否需要聚类

2、通过使用一些方法,如:肘方法。来计算我们需要聚簇的k的数量。

3、在了解了k的数量以后,使用相应的k均值,或者是层次聚类法进行聚类

4、聚类结束后,对聚类的结果进行评估,对于聚类的评估方法通常有两种方法,一种是外在方法,类似于分类,需要有一个基准,用来评价聚类结果的准确率;一种是内在方法,通过我们的轮廓系数,来评价聚类质量的好坏。轮廓系数越接近1,聚类的效果就越好;第三种,聚类中常见的四种特征。

相关推荐
灏瀚星空6 小时前
高频交易技术:订单簿分析与低延迟架构——从Level 2数据挖掘到FPGA硬件加速的全链路解决方案
人工智能·python·算法·信息可视化·fpga开发·架构·数据挖掘
淡酒交魂7 小时前
「Flink」Flink项目搭建方法介绍
大数据·数据挖掘·数据分析
Shining_Jiang8 小时前
打卡第44天:无人机数据集分类
人工智能·分类·数据挖掘
CSTechEi15 小时前
【IEEE/EI/Scopus检索】2025年第六届模式识别与数据挖掘国际会议 (PRDM 2025)
人工智能·数据挖掘·模式识别·ei学术会议
天桥下的卖艺者15 小时前
中国老年健康调查(CLHLS)数据挖掘教程(1)--CLHLS简介和数据下载
人工智能·数据挖掘·r语言
泰迪智能科技0115 小时前
分享| 低代码建模工具-大数据挖掘建模平台白皮书
人工智能·低代码·数据挖掘
CSTechEi15 小时前
【SPIE/EI/Scopus检索】2025 年第二届数据挖掘,计算与软件工程国际会议 (DMCSE 2025)
人工智能·数据挖掘·软件工程·信息与通信·ei学术会议
Leo.yuan1 天前
数据挖掘是什么?数据挖掘技术有哪些?
大数据·数据库·人工智能·数据挖掘·数据分析
Oculus Reparo!2 天前
InternLM 论文分类微调实践(XTuner 版)
人工智能·分类·数据挖掘
F_D_Z2 天前
【SAS求解多元回归方程】REG多元回归分析-多元一次回归
回归·sas·多元回归分析