KMeans实战——聚类和轮廓系数评估啤酒数据集

原理:

在数据分析和机器学习中,聚类是一种常用的无监督学习方法,用于将数据集中的样本划分为若干个簇,使得同一簇内的样本相似度较高,而不同簇之间的样本相似度较低。KMeans算法是其中最常用的聚类算法之一。本文将介绍如何使用KMeans算法对啤酒数据集进行聚类,并使用轮廓系数(Silhouette Score)来评估聚类结果的质量。

1. 数据准备

首先,我们需要导入必要的库并加载数据集。本文使用的数据集是一个啤酒数据集,包含啤酒的热量(calories)、钠含量(sodium)、酒精含量(alcohol)和成本(cost)等特征。

python 复制代码
import pandas as pd
from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt

# 加载数据集
beer = pd.read_table('data.txt', sep=' ', encoding='utf-8', engine='python')

# 选择特征
X = beer[['calories', 'sodium', 'alcohol', 'cost']]

2. 轮廓系数简介

轮廓系数是一种用于评估聚类质量的指标,其值介于-1和1之间。轮廓系数越接近1,表示聚类结果越好;越接近-1,则表示聚类结果可能存在问题。轮廓系数的计算公式如下:

其中:

3. 计算不同簇数的轮廓系数

为了找到最佳的簇数,我们可以尝试不同的簇数,并计算每个簇数对应的轮廓系数。代码如下:

python 复制代码
scores = []
for k in range(2, 10):
    labels = KMeans(n_clusters=k).fit(X).labels_  # 聚类
    score = metrics.silhouette_score(X, labels)  # 计算轮廓系数
    scores.append(score)

print(scores)

4. 绘制轮廓系数随簇数变化的曲线

为了更直观地观察轮廓系数随簇数的变化,我们可以绘制轮廓系数曲线:

python 复制代码
plt.plot(list(range(2, 10)), scores)
plt.xlabel('Number of Clusters')
plt.ylabel('Silhouette Score')
plt.show()

通过观察曲线,我们可以选择一个轮廓系数较高的簇数作为最终的聚类数。

5. 进行聚类并评估结果

假设我们选择簇数为2,进行聚类并评估结果:

python 复制代码
# 聚类
km = KMeans(n_clusters=2).fit(X)
beer['cluster'] = km.labels_

# 计算轮廓系数
score = metrics.silhouette_score(X, beer.cluster)
print(score)

6、运行结果

总结

本文介绍了如何使用KMeans算法对啤酒数据集进行聚类,并使用轮廓系数来评估聚类结果的质量。通过尝试不同的簇数并计算轮廓系数,我们可以选择一个合适的簇数,从而得到较好的聚类结果。轮廓系数是一个非常有用的指标,可以帮助我们判断聚类结果的好坏。

相关推荐
stereohomology3 分钟前
2026年人工智能技术趋势浅度解析
人工智能
2601_9583205711 分钟前
【小白易懂版】OpenClaw 飞书机器人绑定配置详细教程(含安装包)
人工智能·机器人·飞书·open claw·小龙虾·open claw安装
AI创界者17 分钟前
《2026 视觉革命:深度测评 GPT-Image-2,基于 DMXAPI 实现 4K 超分与批量生图实战》
人工智能
云上码厂19 分钟前
2023年之前物理信息神经网络PINN papers
人工智能·深度学习·神经网络
aini_lovee22 分钟前
多目标粒子群优化(MOPSO)双适应度函数MATLAB实现
人工智能·算法·matlab
Cosolar23 分钟前
提示词工程面试题系列 - Zero-Shot Prompting 和 Few-Shot Prompting 的核心区别是什么?
人工智能·设计模式·架构
灵机一物28 分钟前
灵机一物AI原生电商小程序、PC端(已上线)-【无标Anthropic 研究深度解析:AI 对就业市场的实际冲击与高危职业排行题】
人工智能·ai·程序员·职业发展·anthropic·就业市场
电子科技圈29 分钟前
芯科科技在蓝牙亚洲大会展示汽车与边缘AI前沿蓝牙创新技术, 解锁车用、家居、健康及工商业等应用场景
人工智能·科技·嵌入式硬件·mcu·物联网·网络安全·汽车
redreamSo37 分钟前
让AI Agent自动接Issue、写代码、上线:我用200行代码搭了一个全自动开发流水线
人工智能·开源·github
Cosolar44 分钟前
告别无脑循环:深入解析 ReWOO 与 Plan-and-Execute Agent 架构
人工智能·面试·全栈