聚类性能度量

在机器学习中,聚类是一种无监督学习,那对于聚类结果,我们应该如何评估其好坏呢?我们这里介绍两类性能度量

1.外部指标

**外部指标的意思是将聚类结果与某个"参考模型"进行比较。**哎其实也很好理解,就相当于老师批改卷子一样,肯定是对着参考答案改,同学们的答案肯定是千奇百怪的啦~,这里同学们的答案就相当于各种各样的聚类结果,参考答案就相当于参考模型呗(有没有感觉有点像监督学习)

我们先来看看西瓜书中的一些定义:

哇,这公式这么复杂呀,这是干嘛的?别慌别慌,其实不难理解,它是把聚类结果和参考模型的进行对比,就相当于你老师在给你批改卷子的过程,它是两个点两个点进行对比 的,SS意思就是(same,same)就是你聚类结果里面的两个点和参考模型里面的两个点的分类是一样的,SD(same,different)意思是聚类结果里面这两个点分类是一样的,但是参考模型这两个点分类是不一样的;后面的意思以此类推。它是遍历里面的所有点,假如说,我现在拿第一个点,然后遍历簇中的所有点对比,再拿第二个点,遍历编号大于2的所有点进行对比,然后以此类推。我们来看个例子,如下图

在我们这个例子中有5个点,给出了一个聚类结果,然后和参考模型对比,先拿点1和其余四个点对比,然后在那点2和大于2的三个点对比,以此类推,记录每个集合元素的个数,最后的总数就是上述的公式可以计算出。

基于上述的分组我们就可以导出一些常用的聚类性能度量外部指标:

我们依然拿上面的例子来理解这些公式,如下图

如图所示,我们把参考模型和聚类结果那样一放,小伙伴们有没有想到什么呀?是不是和下面的表有点相似呀

哎差不多的,你看看,SS不就相当于TP的位置嘛?其他也一样,那三个性能度量公式分子都和"TP""TN"有关,那肯定值越大越好呗。

2.内部指标

然后我们再来看看内部指标,先看一下书上的定义,如图:

哦豁,又一大坨,没关系,我们接着用例子说明,如图:

结合图中的例子再对应上述的公式,怎么样?不难理解叭~

此时,我们看一下内部指标

式子看着长,其实也不难昂,别慌,我们一起来看看,DBI的公式中其实就是把上述的四个公式组合一下,然后多了个求最大值函数和求和,然后这个DBI为什么越小越好?你看啊,公式里面分母的位置是两个簇中心点的距离那肯定是越大越好,分子是簇内样本间的平均距离,那肯定是越小越好,这样综合来看,最后肯定是DBI的值越小越好。

DI的式子分母是不同簇最近样本间的距离,那肯定是越大越好,分母是样本间的最远距离,那肯定是越小越好,这样样本越集中嘛,那整体来看,就是DI的值越大越好。

ok,这篇就到这里啦,欢迎小伙伴们批评指正~(图片知识来源于西瓜书,例子来源于b站up主致敬大神)

相关推荐
CoCo的编程之路几秒前
从“手写UI”到“智能生成”的工具深度评测
人工智能·ai编程·comate·智能编程助手·文心快码baiducomate
YH12312359h3 分钟前
YOLOv8_PST模型玉米生长阶段自动识别与分类
人工智能·yolo·分类
水如烟3 分钟前
孤能子视角:“隋唐“
人工智能
Aliex_git3 分钟前
Claude Code 使用笔记(一)- 配置和基础
人工智能·笔记·学习·ai编程
组合缺一27 分钟前
开发 Java MCP 就像写 Controller 一样简单,还支持 Java 8
java·人工智能·llm·solon·java8·mcp
檐下翻书17333 分钟前
免费在线工艺流程图制作工具_生产/化工/食品工艺流程绘制模板
人工智能·金融·架构·流程图·论文笔记·pcb工艺
GuoDongOrange43 分钟前
从 0 到 1 构建 AI 智能体——AI Agent 的工程化路径、行业范式与未来形态
人工智能·ai agent·智能体·智能体从0到1·从0到1构建智能体
极智-9961 小时前
GitHub 热榜项目-日榜精选(2026-01-24)| AI智能体工具、Python生态等 | remotion、VibeVoice、goose等
人工智能·python·github·ai智能体·大模型部署·语音ai
翱翔的苍鹰1 小时前
完整的“RNN + jieba 中文情感分析”项目之一:终极版
人工智能·rnn·深度学习
徐小夕@趣谈前端1 小时前
NO-CRM 2.0正式上线,Vue3+Echarts+NestJS实现的全栈CRM系统,用AI重新定义和实现客户管理系统
前端·javascript·人工智能·开源·编辑器·echarts