聚类笔记:聚类算法评估指标

1 内部评估方法

  • 当一个聚类结果是基于数据聚类自身进行评估的,这一类叫做内部评估方法。
  • 如果某个聚类算法聚类的结果是类间相似性低,类内相似性高,那么内部评估方法会给予较高的分数评价。
  • 不过内部评价方法的缺点是:
    • 这些评估方法对某些算法有倾向性,如k-means聚类都是基于点之间的距离进行优化的,而那些基于距离的内部评估方法就会过度的赞誉这些生成的聚类结果

      • ------>这些内部评估方法是基于特定场景判定一个算法要优于另一个

1.1 SSE 和方差

拟合数据和原始数据对应点的误差的平方和

1.2 Compactness(紧密性)(CP)

每一个类各点到聚类中心的平均距离

CP越低意味着类内聚类距离越近

1.3 Separation(间隔性)(SP)

  • 各聚类中心两两之间平均距离
  • SP越高意味类间聚类距离越远

1.4 轮廓系数 Silhouette Coefficient

对于单个样本,设a是与它同类别中其他样本的平均距离,b是与它距离最近不同类别中样本的平均距离,其轮廓系数为:

对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。

轮廓系数的取值范围是[-1,1],同类别样本距离越相近不同类别样本距离越远,分数越高

1.5 Davies-Bouldin Index(戴维森堡丁指数)

  • 任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值。
  • DB越小意味着类内距离越小同时类间距离越大

1.6 Dunn Validity Index (邓恩指数)(DVI)

  • 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)。
  • DVI越大意味着类间距离越大同时类内距离越小。

2 外部评估指标

  • 在外部评估方法中,聚类结果是通过使用没被用来做训练集的数据进行评估。
    • 这些数据已经预先分类好,被用作ground truth

2.1 纯度(Purity

  • 每个簇中最多的类作为这个簇所代表的类
  • 计算正确分配的类的数量,然后除以N
相关推荐
漂流瓶jz2 分钟前
UVA-1152 和为0的4个值 题解答案代码 算法竞赛入门经典第二版
数据结构·算法·二分查找·题解·aoapc·算法竞赛入门经典·uva
leoufung10 分钟前
LeetCode 76:Minimum Window Substring 题解与滑动窗口思维详解
算法·leetcode·职场和发展
其实防守也摸鱼13 分钟前
CTF密码学综合教学指南--第四章
网络·笔记·安全·网络安全·密码学·ctf
小O的算法实验室23 分钟前
2026年IEEE TETCI,山区环境下基于双种群进化的协同无人机巡逻任务协同优化,深度解析+性能实测
算法·论文复现·智能算法·智能算法改进
生成论实验室44 分钟前
《事件关系阴阳博弈动力学:识势应势之道》第二篇:阴阳博弈——认知的动力学基础
数据结构·人工智能·科技·神经网络·算法
风筝在晴天搁浅1 小时前
字节高频题 小于n的最大数
算法
LabVIEW开发1 小时前
LabVIEW水力机组空蚀在线监测
算法·labview·labview知识·labview功能·labview程序
AI科技星1 小时前
科幻艺术书本封面:《全域数学》第一部·数术本源 第三卷 代数原本(P95-141)完整五级目录【乖乖数学】
算法·机器学习·数学建模·数据挖掘·量子计算
风筝在晴天搁浅1 小时前
LeetCode 92.反转链表Ⅱ
算法·leetcode·链表
王老师青少年编程2 小时前
csp信奥赛C++高频考点专项训练之贪心算法 --【贪心与二分判定】:数列分段 Section II
c++·算法·贪心·csp·信奥赛·二分判定·数列分段 section ii