【机器学习】26. 聚类评估方法

聚类评估方法

  • [1. Unsupervised Measure](#1. Unsupervised Measure)
    • [1.1. Method 1: measure cohesion and separation](#1.1. Method 1: measure cohesion and separation)
      • [Silhouette coefficient](#Silhouette coefficient)
    • [Method 2:Correlation between two similarity matrices](#Method 2:Correlation between two similarity matrices)
    • [Method 3:Visual Inspection of similarity matrix](#Method 3:Visual Inspection of similarity matrix)
  • [2. Supervised measures](#2. Supervised measures)
  • [3. 决定cluster的数量](#3. 决定cluster的数量)
  • [4. 确定聚类趋势](#4. 确定聚类趋势)

1. Unsupervised Measure

  • 一个集群内的相似性高,集群之间的相似性低
  • 这些措施也被称为internal

1.1. Method 1: measure cohesion and separation

cohesion 和separation使用距离测量

cohesion :每个点与集群中心的距离(曼哈顿)

整体cohesion :直接相加

separation:每个类的中心的距离

整体separation:乘以数量权重再相加

也可以用平方距离 名字改成SSE BSE

Silhouette coefficient

对于某个点i:

a_I: 点i到簇内所有其他点的平均距离, 代表凝聚度

b_i: 首先找到点i到另一个簇中所有点的平均距离, 然后取这些平均距离的最小值

s的范围是−1,1,越高越好

Method 2:Correlation between two similarity matrices

• 第一个相似度矩阵从距离得出

• 第二个相似度矩阵从聚类结果得出 0 不同,1相同

计算这两个相似度矩阵的相关性.

Method 3:Visual Inspection of similarity matrix

Plot the similarity matrix using coloring based on the similarity

主对角线的块状结构越清晰越好

2. Supervised measures

  • 将聚类结果与"ground truth"(专家提供的正确聚类标签)进行比较
  • 也叫External

3. 决定cluster的数量

elbow method

运行几个k的聚类算法,绘制SSE或其他无监督度量与簇的数量

寻找明显的膝盖或峰=大量的集群

4. 确定聚类趋势

Hopkins statistic

相关推荐
阿瑞IT12 分钟前
AI Agent 在甘特计划变更场景中的动态响应工程实践
人工智能
Goodbye14 分钟前
从函数到智能:LLM Tool Use 深度解析
javascript·人工智能
半个落月15 分钟前
大模型到底是怎么“调用工具”的?从一个 Node.js Demo 看懂 Tool Use
javascript·人工智能
MingXin24 分钟前
Claude Code 对接 DeepSeek 完整使用教程(2026 最新版)
人工智能
Oo92033 分钟前
LLM 分词与嵌入:从文本到向量,模型如何"读懂"你的输入
人工智能
Databend2 小时前
在 AWS 中国峰会逛了一天,我在 Databend 展台看到了 Agent 数据基础设施的新思路
数据库·人工智能·agent
米小虾2 小时前
从 Prompt 到 Loop:2026 年 AI 工程师必须掌握的 Loop Engineering 实战指南
人工智能·agent
Bigger2 小时前
我写了一个AI图像视频生成工具,免费API+本地部署,分享给大家
人工智能·图像识别·音视频开发
神奇小汤圆3 小时前
LLM 记忆系统:从 Markdown 知识库到 Self-Governing Repo
人工智能
程序员cxuan3 小时前
GPT-5.6 还不发布?不过大家可以先看看 Codex 的白皮书。
人工智能·后端·程序员