调整兰德系数-评估聚类效果的指标

调整兰德系数(Adjusted Rand Index, ARI)是一种用于评估聚类结果与真实标签之间相似度的指标。它在传统兰德系数(Rand Index, RI)的基础上进行了调整,考虑了随机聚类的期望值,因此能够更公平地评估聚类结果。

调整兰德系数的计算步骤

1. 构建混淆矩阵

给定两个聚类结果:真实标签 ( T ) 和聚类标签 ( C ),构建一个混淆矩阵 ( M ),其中 ( M_{ij} ) 表示真实标签为 ( i ) 且聚类标签为 ( j ) 的样本数量。

2. 计算组合数

  • ( a ):同属于一个簇且同属于一个真实类的样本对数。
  • ( b ):同属于一个簇但不属于一个真实类的样本对数。
  • ( c ):不属于一个簇但同属于一个真实类的样本对数。
  • ( d ):不属于一个簇且不属于一个真实类的样本对数。

3. 计算兰德系数

兰德系数 ( RI ) 的计算公式为:

[ RI = \frac{a + d}{a + b + c + d} ]

4. 计算调整兰德系数

调整兰德系数 ( ARI ) 的计算公式为:

[ ARI = \frac{\text{Index} - \text{Expected Index}}{\text{Max Index} - \text{Expected Index}} ]

其中:

  • (\text{Index} = a + d)
  • (\text{Expected Index}) 和 (\text{Max Index}) 的计算如下:

详细公式

混淆矩阵

假设有 ( n ) 个样本,真实标签 ( T ) 有 ( k ) 个类别,聚类标签 ( C ) 有 ( m ) 个簇。混淆矩阵 ( M ) 的元素 ( M_{ij} ) 表示真实标签为 ( i ) 且聚类标签为 ( j ) 的样本数量。

组合数计算

[ a = \sum_{ij} \binom{M_{ij}}{2} ]

[ b = \sum_{i} \binom{\sum_{j} M_{ij}}{2} - a ]

[ c = \sum_{j} \binom{\sum_{i} M_{ij}}{2} - a ]

[ d = \binom{n}{2} - (a + b + c) ]

调整兰德系数计算

[ ARI = \frac{\sum_{ij} \binom{M_{ij}}{2} - \left[ \frac{\sum_{i} \binom{\sum_{j} M_{ij}}{2} \sum_{j} \binom{\sum_{i} M_{ij}}{2}}{\binom{n}{2}} \right]}{\frac{1}{2} \left[ \sum_{i} \binom{\sum_{j} M_{ij}}{2} + \sum_{j} \binom{\sum_{i} M_{ij}}{2} \right] - \left[ \frac{\sum_{i} \binom{\sum_{j} M_{ij}}{2} \sum_{j} \binom{\sum_{i} M_{ij}}{2}}{\binom{n}{2}} \right]} ]

示例计算

假设我们有以下数据:

真实标签 ( T ):[0, 0, 1, 1, 2, 2, 3, 3, 4, 4]

聚类标签 ( C ):[1, 1, 0, 0, 2, 2, 1, 1, 3, 3]

构建混淆矩阵:

[ M = \begin{bmatrix}

0 & 2 & 0 & 0\

2 & 0 & 0 & 0\

0 & 0 & 2 & 0\

0 & 2 & 0 & 0\

0 & 0 & 0 & 2

\end{bmatrix} ]

其中,( M_{ij} ) 表示真实标签为 ( i ) 且聚类标签为 ( j ) 的样本数量。

计算组合数:

( a ):同属于一个簇且同属于一个真实类的样本对数:

[ a = \sum_{ij} \binom{M_{ij}}{2} = \binom{2}{2} + \binom{2}{2} + \binom{2}{2} + \binom{2}{2} + \binom{2}{2} = 1 + 1 + 1 + 1 + 1 = 5 ]

( b ):同属于一个簇但不属于一个真实类的样本对数:

[ b = \sum_{j} \binom{\sum_{i} M_{ij}}{2} - a = \left( \binom{4}{2} + \binom{2}{2} + \binom{2}{2} + \binom{2}{2} \right) - 5 = (6 + 1 + 1 + 1) - 5 = 4 ]

( c ):不属于一个簇但同属于一个真实类的样本对数:

[ c = \sum_{i} \binom{\sum_{j} M_{ij}}{2} - a = \left( \binom{2}{2} + \binom{2}{2} + \binom{2}{2} + \binom{2}{2} + \binom{2}{2} \right) - 5 = (1 + 1 + 1 + 1 + 1) - 5 = 0 ]

( d ):不属于一个簇且不属于一个真实类的样本对数:

[ d = \binom{n}{2} - (a + b + c) = \binom{10}{2} - (5 + 4 + 0) = 45 - 9 = 36 ]

计算兰德系数:

[ RI = \frac{a + d}{a + b + c + d} = \frac{5 + 36}{5 + 4 + 0 + 36} = \frac{41}{45} \approx 0.9111 ]

计算调整兰德系数:

期望指数 ( \text{Expected Index} ):

[ \text{Expected Index} = \frac{\left( \sum_{i} \binom{\sum_{j} M_{ij}}{2} \right) \left( \sum_{j} \binom{\sum_{i} M_{ij}}{2} \right)}{\binom{n}{2}} = \frac{5 \times 9}{45} = 1 ]

最大指数 ( \text{Max Index} ):

[ \text{Max Index} = \frac{1}{2} \left( \sum_{i} \binom{\sum_{j} M_{ij}}{2} + \sum_{j} \binom{\sum_{i} M_{ij}}{2} \right) = \frac{1}{2} (5 + 9) = 7 ]

调整兰德系数 ( ARI ):

[ ARI = \frac{\text{Index} - \text{Expected Index}}{\text{Max Index} - \text{Expected Index}} = \frac{41 - 1}{45 - 1} = \frac{40}{44} \approx 0.9091 ]

调整兰德系数示例

调整兰德系数(Adjusted Rand Index, ARI)是一种用于评估聚类结果与真实标签之间一致性的指标。它考虑了聚类中的随机性,提供了一个校正后的分数,使得即使在随机标签的情况下,ARI的期望值也接近于零。

调整兰德系数的计算

调整兰德系数的公式如下:

A R I = R I − E [ R I ] max ⁡ ( R I ) − E [ R I ] ARI = \frac{{RI - E[RI]}}{{\max(RI) - E[RI]}} ARI=max(RI)−E[RI]RI−E[RI]

其中,RI 是兰德系数(Rand Index), E [ R I ] E[RI] E[RI] 是期望的兰德系数。

示例

假设我们有一个包含真实标签和聚类结果的数据集。我们将使用 sklearn 库来计算调整兰德系数。

示例数据

python 复制代码
from sklearn.metrics import adjusted_rand_score

# 真实标签
true_labels = [0, 0, 1, 1, 2, 2, 3, 3]

# 聚类结果 1
cluster_labels_1 = [0, 0, 1, 1, 2, 2, 3, 3]

# 聚类结果 2
cluster_labels_2 = [0, 0, 1, 1, 3, 3, 2, 2]

# 聚类结果 3
cluster_labels_3 = [0, 1, 0, 1, 2, 3, 2, 3]

# 计算调整兰德系数
ari_1 = adjusted_rand_score(true_labels, cluster_labels_1)
ari_2 = adjusted_rand_score(true_labels, cluster_labels_2)
ari_3 = adjusted_rand_score(true_labels, cluster_labels_3)

print(f"ARI for cluster_labels_1: {ari_1:.2f}")
print(f"ARI for cluster_labels_2: {ari_2:.2f}")
print(f"ARI for cluster_labels_3: {ari_3:.2f}")

输出结果

plaintext 复制代码
ARI for cluster_labels_1: 1.00
ARI for cluster_labels_2: 0.57
ARI for cluster_labels_3: 0.00

解释
ARI for cluster_labels_1: 1.00
这个结果表明聚类结果与真实标签完全一致,调整兰德系数为1,表示完美匹配。

ARI for cluster_labels_2: 0.57
这个结果表明聚类结果与真实标签有一定的一致性,但并不完美。调整兰德系数为0.57,表示中等的一致性。

ARI for cluster_labels_3: 0.00
这个结果表明聚类结果与真实标签几乎没有一致性,调整兰德系数为0,表示随机分配。
相关推荐
dundunmm3 分钟前
机器学习之PCA降维
机器学习·信息可视化·数据挖掘·数据分析
千天夜27 分钟前
深度学习中的残差网络、加权残差连接(WRC)与跨阶段部分连接(CSP)详解
网络·人工智能·深度学习·神经网络·yolo·机器学习
Kenneth風车1 小时前
【机器学习(九)】分类和回归任务-多层感知机(Multilayer Perceptron,MLP)算法-Sentosa_DSML社区版 (1)11
算法·机器学习·分类
feifeikon3 小时前
机器学习DAY4续:梯度提升与 XGBoost (完)
人工智能·深度学习·机器学习
IT猿手3 小时前
最新高性能多目标优化算法:多目标麋鹿优化算法(MOEHO)求解GLSMOP1-GLSMOP9及工程应用---盘式制动器设计,提供完整MATLAB代码
开发语言·算法·机器学习·matlab·强化学习
Kenneth風车4 小时前
【机器学习(九)】分类和回归任务-多层感知机(Multilayer Perceptron,MLP)算法-Sentosa_DSML社区版 (1)111
算法·机器学习·分类
18号房客4 小时前
计算机视觉-人工智能(AI)入门教程一
人工智能·深度学习·opencv·机器学习·计算机视觉·数据挖掘·语音识别
statistican_ABin4 小时前
R语言数据分析案例46-不同区域教育情况回归分析和探索
数据挖掘·数据分析
QQ_7781329745 小时前
基于深度学习的图像超分辨率重建
人工智能·机器学习·超分辨率重建
X_StarX5 小时前
数据可视化期末复习-简答题
计算机视觉·信息可视化·数据挖掘·数据分析·数据可视化·大学生·期末