【机器学习】26. 聚类评估方法

聚类评估方法

  • [1. Unsupervised Measure](#1. Unsupervised Measure)
    • [1.1. Method 1: measure cohesion and separation](#1.1. Method 1: measure cohesion and separation)
      • [Silhouette coefficient](#Silhouette coefficient)
    • [Method 2:Correlation between two similarity matrices](#Method 2:Correlation between two similarity matrices)
    • [Method 3:Visual Inspection of similarity matrix](#Method 3:Visual Inspection of similarity matrix)
  • [2. Supervised measures](#2. Supervised measures)
  • [3. 决定cluster的数量](#3. 决定cluster的数量)
  • [4. 确定聚类趋势](#4. 确定聚类趋势)

1. Unsupervised Measure

  • 一个集群内的相似性高,集群之间的相似性低
  • 这些措施也被称为internal

1.1. Method 1: measure cohesion and separation

cohesion 和separation使用距离测量

cohesion :每个点与集群中心的距离(曼哈顿)

整体cohesion :直接相加

separation:每个类的中心的距离

整体separation:乘以数量权重再相加

也可以用平方距离 名字改成SSE BSE

Silhouette coefficient

对于某个点i:

a_I: 点i到簇内所有其他点的平均距离, 代表凝聚度

b_i: 首先找到点i到另一个簇中所有点的平均距离, 然后取这些平均距离的最小值

s的范围是[−1,1],越高越好

Method 2:Correlation between two similarity matrices

• 第一个相似度矩阵从距离得出

• 第二个相似度矩阵从聚类结果得出 0 不同,1相同

计算这两个相似度矩阵的相关性.

Method 3:Visual Inspection of similarity matrix

Plot the similarity matrix using coloring based on the similarity

主对角线的块状结构越清晰越好

2. Supervised measures

  • 将聚类结果与"ground truth"(专家提供的正确聚类标签)进行比较
  • 也叫External

3. 决定cluster的数量

elbow method

运行几个k的聚类算法,绘制SSE或其他无监督度量与簇的数量

寻找明显的膝盖或峰=大量的集群

4. 确定聚类趋势

Hopkins statistic

相关推荐
百***354829 分钟前
DeepSeek在情感分析中的细粒度识别
人工智能
Qzkj66642 分钟前
从规则到智能:企业数据分类分级的先进实践与自动化转型
大数据·人工智能·自动化
weixin79893765432...1 小时前
React + Fastify + DeepSeek 实现一个简单的对话式 AI 应用
人工智能·react.js·fastify
大千AI助手1 小时前
概率单位回归(Probit Regression)详解
人工智能·机器学习·数据挖掘·回归·大千ai助手·概率单位回归·probit回归
狂炫冰美式2 小时前
3天,1人,从0到付费产品:AI时代个人开发者的生存指南
前端·人工智能·后端
LCG元2 小时前
垂直Agent才是未来:详解让大模型"专业对口"的三大核心技术
人工智能
我不是QI3 小时前
周志华《机器学习—西瓜书》二
人工智能·安全·机器学习
操练起来3 小时前
【昇腾CANN训练营·第八期】Ascend C生态兼容:基于PyTorch Adapter的自定义算子注册与自动微分实现
人工智能·pytorch·acl·昇腾·cann
KG_LLM图谱增强大模型3 小时前
[500页电子书]构建自主AI Agent系统的蓝图:谷歌重磅发布智能体设计模式指南
人工智能·大模型·知识图谱·智能体·知识图谱增强大模型·agenticai
声网3 小时前
活动推荐丨「实时互动 × 对话式 AI」主题有奖征文
大数据·人工智能·实时互动