机器学习------聚类

聚类

聚类算法简介

知道聚类算法介绍

一种典型的无监督学习的算法,主要用于将相似的样本自动归到一个类别中.

在聚类算法中根据样本之间的相似性,将样本互粉到不同的类别中,对于不同的相似计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法

了解聚类算法在现实中的应用

用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别

基于位置信息的商业推送,新闻聚类,筛选排序

图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段

知道分类

1.根据聚类颗粒度分类

根据实现方法分类

K-means: 按照质心分类,主要介绍K-means,通用,普遍

层次聚类: 对数据进行逐层划分,直到达到聚类的类别个数

DBSCAN聚类是一种基于密度的聚类算法

谱聚类是一种基于图论的聚类算法

聚类APL的初步使用

了解API介绍

sklearn.cluster.KMeans(n_clusters=8)

参数

n_clustees:开始的聚类中心数量

整形,缺省值=8,生成的聚类数,即产生的质心(centroids)数

方法

estimator.fit(x)

estimator.predict(x)

几点聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)

掌握k-means

1.随机设置k个特征空间内的点作为初始的聚类中心

2.对于其他每个点计算带k个中心的距离,未知的饿点最近的一个聚类中心点作为标记类别

3.接着对着标记的聚类中心之后,重新计算出每个聚类的中心点(平均值)

4.如果计算机得出的新中心带你与原中心点一样(质心不再移动),那么结束,否则重新进行第二部过程

评价指标

了解SSE-误差平方和

1.k表示聚类中心的个数

2.Ci表示簇

3.p表示样本

4.mi表示簇的质心

SSE越小,表示数据点越接近它们的中心,聚类效果越好

了解SC系数

结合了聚类的凝聚度(Cohesion) 和分离度(Separation),用于评估聚类的效果

其计算过程如下:

1.计算每一个样本 i 到同簇内其他样本的平均距离ai, 该值越小,说明簇内的相似程度越大

2.计算每一个样本i到最近簇j内的所有样本的平均距离bij,该值越大,说明该样本越不属于其他簇j

3.计算所有样本的平均轮廓系数

4.轮廓系数的范围为:-1,1.值越大聚类效果越好

了解肘部法

肘部法可以用来确认k值

对于n个点的数据集,迭代计算 k from 1 to n,每次聚类完成后计算SSE

SSE是会逐渐变小的,因为每个点都是它所在的簇中心本身

SSE变化过程中会出现一个拐点,下降率突然变缓时即认为是最佳n_clusters值

在决定什么时候停止训练时,肘形判据同样有效,数据通常有更多的噪音,在增加分类无法带来更多汇报时,我们停止增加类别

了解CH系数

CH系数结合了聚类的凝聚度(Cohesion)和分离度(Separation).质心的个数,希望用最少得簇进进行聚类

SSW的含义:

1.Cpi表示质心

2.Xi表示某个样本

3.SSW 值是计算每个样本点到质心的距离,并累加起来

4.SSW 表示蔟内的内聚程度,越小越好

5, m表示样本数量

6.k表示质心的个数

SSB的含义:

1.Cj表示质心,X表示质心与质心之间的中心点,nj表示样本个数

2.SSB表示簇与簇之间的分离度,SSB越大越好

相关推荐
逻辑君几秒前
Foresight研究报告【20260019】
人工智能·数学建模
旦莫3 分钟前
AI测试Agent的两种架构路径:谁做主控?
人工智能·python·架构·自动化·ai测试
城事漫游Molly4 分钟前
AI赋能质性研究(二):用 AI 做归纳编码,7 个场景提示词模板
人工智能·prompt·ai for science·提示词工程·定性研究
搬石头的马农7 分钟前
从零配置Claude自动修Bug:6步打造全自动开发流程
java·人工智能·python·bug·ai编程
暗夜猎手-大魔王13 分钟前
转载--Hermes Agent 04 | Agent 主循环:一次对话背后发生了什么
人工智能·python·算法
GPUStack14 分钟前
没有 GPU,还能跑大模型吗?vLLM vs llama.cpp 实测对比
人工智能·开源
星越华夏15 分钟前
物联网基于树莓派的智能环境监控系统:温湿度传感与远程控制综合设计
人工智能·物联网
Xxtaoaooo20 分钟前
DolphinDB物联网实测手记:用环境传感器数据跑通时序分析的完整链路
人工智能
道友可好20 分钟前
AI 写代码太快了,快到你对齐不了它
前端·人工智能
Hali_Botebie26 分钟前
Infinity Instruct:扩展指令选择与综合以增强语言模型:推动开源指令数据集的发展
人工智能·语言模型·自然语言处理