聚类的评估方法

内部评估指标

内部评估方法基于数据本身的特征,不依赖外部标签,适用于无监督学习场景。

轮廓系数(Silhouette Coefficient)

衡量样本与自身簇和其他簇的距离,取值范围为[-1, 1]。值越接近1表示聚类效果越好。公式为:

s(i) = \\frac{b(i) - a(i)}{\\max{a(i), b(i)}}

其中,a(i)是样本i到同簇其他样本的平均距离,b(i)是样本i到最近其他簇的平均距离。

戴维森-堡丁指数(Davies-Bouldin Index, DBI)

反映簇内距离与簇间距离的比值,值越小聚类效果越好。公式为:

DBI = \\frac{1}{k} \\sum_{i=1}\^k \\max_{j \\neq i} \\left( \\frac{\\sigma_i + \\sigma_j}{d(c_i, c_j)} \\right)

其中,\\sigma_i为簇i的平均距离,d(c_i, c_j)为簇中心距离。

Calinski-Harabasz指数(CH指数)

通过簇间离散度与簇内离散度的比值评估聚类,值越大效果越好。公式为:

CH = \\frac{\\text{tr}(B_k)}{\\text{tr}(W_k)} \\times \\frac{n - k}{k - 1}

B_k为簇间离散矩阵,W_k为簇内离散矩阵,n为样本数,k为簇数。


外部评估指标

外部评估方法依赖真实标签,适用于有监督验证的场景。

调整兰德指数(Adjusted Rand Index, ARI)

比较聚类结果与真实标签的相似度,取值范围为[-1, 1],值越接近1表示聚类与标签越一致。公式为:

ARI = \\frac{\\text{RI} - E\[\\text{RI}\]}{\\max(\\text{RI}) - E\[\\text{RI}\]}

RI为兰德指数,E\[\\text{RI}\]为期望值。

归一化互信息(Normalized Mutual Information, NMI)

衡量聚类结果与真实标签的信息共享程度,取值范围为[0, 1]。公式为:

NMI = \\frac{I(U; V)}{\\sqrt{H(U)H(V)}}

I(U; V)为互信息,H(U)H(V)为熵。

Fowlkes-Mallows指数(FMI)

基于成对样本的准确率和召回率几何平均,值越接近1效果越好。公式为:

FMI = \\sqrt{\\frac{TP}{TP + FP} \\times \\frac{TP}{TP + FN}}

TP、FP、FN分别为真正例、假正例、假反例。


其他实用方法

肘部法则(Elbow Method)

通过观察不同簇数下损失函数(如SSE)的变化曲线,选择拐点对应的k值。

间隙统计量(Gap Statistic)

比较实际数据与参考数据的聚类效果差异,选择使间隙值最大的k。公式为:

\\text{Gap}(k) = E\[\\log(W_k)\] - \\log(W_k)

W_k为簇内离散度,E\[\\cdot\]为参考数据期望。

稳定性评估

通过多次聚类结果的相似性(如Jaccard指数)评估算法稳定性,适用于数据扰动场景。

相关推荐
板面华仔6 分钟前
机器学习入门(三)——决策树(Decision Tree)
人工智能·决策树·机器学习
GAOJ_K20 分钟前
滚珠花键的无预压、间隙调整与过盈配合“场景适配型”
人工智能·科技·机器人·自动化·制造
zxsz_com_cn20 分钟前
设备预测性维护算法分类及优劣势分析,选型指南来了
算法·分类·数据挖掘
ai_xiaogui24 分钟前
【开源探索】Panelai:重新定义AI服务器管理面板,助力团队私有化算力部署与模型运维
人工智能·开源·私有化部署·docker容器化·panelai·ai服务器管理面板·comfyui集群管理
源于花海29 分钟前
迁移学习的前沿知识(AI与人类经验结合、传递式、终身、在线、强化、可解释性等)
人工智能·机器学习·迁移学习·迁移学习前沿
机 _ 长32 分钟前
YOLO26 改进 | 基于特征蒸馏 | 知识蒸馏 (Response & Feature-based Distillation)
python·深度学习·机器学习
m0_748708051 小时前
C++中的观察者模式实战
开发语言·c++·算法
然哥依旧1 小时前
【轴承故障诊断】基于融合鱼鹰和柯西变异的麻雀优化算法OCSSA-VMD-CNN-BILSTM轴承诊断研究【西储大学数据】(Matlab代码实现)
算法·支持向量机·matlab·cnn
king of code porter1 小时前
百宝箱企业版搭建智能体应用-平台概述
人工智能·大模型·智能体
愚公搬代码1 小时前
【愚公系列】《AI短视频创作一本通》004-AI短视频的准备工作(创作AI短视频的基本流程)
人工智能·音视频