聚类评估方法
- [1. Unsupervised Measure](#1. Unsupervised Measure)
-
- [1.1. Method 1: measure cohesion and separation](#1.1. Method 1: measure cohesion and separation)
-
- [Silhouette coefficient](#Silhouette coefficient)
- [Method 2:Correlation between two similarity matrices](#Method 2:Correlation between two similarity matrices)
- [Method 3:Visual Inspection of similarity matrix](#Method 3:Visual Inspection of similarity matrix)
- [2. Supervised measures](#2. Supervised measures)
- [3. 决定cluster的数量](#3. 决定cluster的数量)
- [4. 确定聚类趋势](#4. 确定聚类趋势)
1. Unsupervised Measure
- 一个集群内的相似性高,集群之间的相似性低
- 这些措施也被称为internal
1.1. Method 1: measure cohesion and separation
cohesion 和separation使用距离测量
cohesion :每个点与集群中心的距离(曼哈顿)
整体cohesion :直接相加
separation:每个类的中心的距离
整体separation:乘以数量权重再相加
也可以用平方距离 名字改成SSE BSE
Silhouette coefficient
对于某个点i:
a_I: 点i到簇内所有其他点的平均距离, 代表凝聚度
b_i: 首先找到点i到另一个簇中所有点的平均距离, 然后取这些平均距离的最小值
s的范围是[−1,1],越高越好
Method 2:Correlation between two similarity matrices
• 第一个相似度矩阵从距离得出
• 第二个相似度矩阵从聚类结果得出 0 不同,1相同
计算这两个相似度矩阵的相关性.
Method 3:Visual Inspection of similarity matrix
Plot the similarity matrix using coloring based on the similarity
主对角线的块状结构越清晰越好
2. Supervised measures
- 将聚类结果与"ground truth"(专家提供的正确聚类标签)进行比较
- 也叫External
3. 决定cluster的数量
elbow method
运行几个k的聚类算法,绘制SSE或其他无监督度量与簇的数量
寻找明显的膝盖或峰=大量的集群
4. 确定聚类趋势
Hopkins statistic