基本概念

性质:
应用:
划分聚类

k-means算法( 基于质心的技术)
优缺点
改进
k-medoids算法( 基于代表对象的技术)

PAM是 k-medoids算法 的算法之一
性能分析:
CLARA方法-大数据集合-取样
层次聚类算法

通过建树或者拆树的方法进行聚类
AGNES算法
由下而上的聚类
DIANA算法

如果要分出k个聚类,则每次从旧聚类(最开始的大聚类)中选出中心点进行聚类,选k - 1次
BIRCH算法
提取每个点的聚类特征( Clustering Feature, CF)建立聚类特征树( Clustering Feature Tree, CF树),通过树划分的叶子节点簇进行聚类,从而提高性能。
CF树:
注意,叶子结点是CF簇
如何建树:
如何分裂:
叶节点阈值(T)为3,则下图中叶节点分裂
内部节点阈值(L)为3,图中为4,发生分裂
密度聚类
只要邻近区域的密度( 对象或数据点的数目) 超过某个阀值, 就把它加到与之相近的聚类中。
也就是说, 对给定类中的每个数据点, 在一个给定范围的区域中必须至少包含某个数目的点。
DBSCAN
几个重要概念:
算法流程:
缺点:
- 对参数敏感,设置不同的参数,聚类效果差异大
- 只能发现密度相似的类
OPTICS算法
通过点排序识别聚类结构。
思想:计算一个点周围的点到这个点的可达距离,并进行排序,直到算完所有可以到达的点;再用没有计算的点计算周围可以到达的点的距离,如此重复直到所有点算完。
核心距离与可达距离

距离排序
将排序后的队列进行数据可视化:
DENCLUE算法: 影响函数
网格聚类
STING算法-统计信息网格


WaveCluster算法
流程:
模型聚类
模型聚类主要有两类: 统计学方法( EM和COBWEB算法) 和神经网络方法( SOM算法) 。
EM算法

COBWEB算法
SOM算法
模糊聚类
聚类估计
估计聚类趋势
霍普金斯统计量
即判断数据是否可聚类
计算原理:
可以看到当样本点与实际点距离很短,均匀点与实际点很远时,H偏大,数据集更又可能聚类。
确定簇数
简单的经验方法

肘方法

测定聚类质量
