【机器学习】26. 聚类评估方法

pen-ai2024-11-02 19:35

[1. Unsupervised Measure](#1. Unsupervised Measure)
- [1.1. Method 1: measure cohesion and separation](#1.1. Method 1: measure cohesion and separation)
- - [Silhouette coefficient](#Silhouette coefficient)
- [Method 2：Correlation between two similarity matrices](#Method 2：Correlation between two similarity matrices)
- [Method 3：Visual Inspection of similarity matrix](#Method 3：Visual Inspection of similarity matrix)
[2. Supervised measures](#2. Supervised measures)
[3. 决定cluster的数量](#3. 决定cluster的数量)
[4. 确定聚类趋势](#4. 确定聚类趋势)

1. Unsupervised Measure

cohesion 和separation使用距离测量

cohesion ：每个点与集群中心的距离（曼哈顿）

整体cohesion ：直接相加

separation：每个类的中心的距离

整体separation：乘以数量权重再相加

也可以用平方距离名字改成SSE BSE

对于某个点i:

a_I: 点i到簇内所有其他点的平均距离, 代表凝聚度

b_i: 首先找到点i到另一个簇中所有点的平均距离, 然后取这些平均距离的最小值

s的范围是[−1,1]，越高越好

• 第一个相似度矩阵从距离得出

• 第二个相似度矩阵从聚类结果得出 0 不同，1相同

计算这两个相似度矩阵的相关性.

Plot the similarity matrix using coloring based on the similarity

主对角线的块状结构越清晰越好

elbow method

运行几个k的聚类算法，绘制SSE或其他无监督度量与簇的数量

寻找明显的膝盖或峰=大量的集群

Hopkins statistic