Python聚类算法K-means

qq_434517822024-11-03 16:39

1.库安装：scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

2.学习网站：2.3. 聚类 - sklearn

KMeans 算法

KMeans 算法通过把样本分离成 n 个具有相同方差的类的方式来聚集数据，最小化称为惯量(inertia) 或簇内平方和(within-cluster sum-of-squares)的标准（criterion）。该算法需要指定簇的数量。它可以很好地扩展到大量样本(large number of samples)，并已经被广泛应用于许多不同领域的应用领域。

k-means 算法将一组样本划分成不相交的簇 , 每个都用该簇中的样本的均值描述。这个均值(means)通常被称为簇的 "质心(centroids)"; 注意，它们一般不是从中挑选出的点，虽然它们是处在同一个空间。

K-means（K-均值）算法旨在选择一个质心, 能够最小化惯性或簇内平方和的标准:

4.算法流程

（1）选择K个点作为初始质心。

（2）将每个点指派到最近的质心，形成K个簇。

（3）对于上一步聚类的结果，进行平均计算，得出该簇的新的聚类中心。

（4）重复上述两步/直到迭代结束：质心不发生变化。

使用for循环计算聚类个数为2至9时的轮廓系数值，寻找最优聚类个数代码：

import pandas as pd

import numpy as np

from sklearn.cluster import KMeans

from sklearn.metrics import silhouette_samples

from sklearn.metrics import silhouette_score

import matplotlib.pyplot as plt

读取Excel文件

df = pd.read_excel('E:\python练习\Python_Kmeans\工作簿1.xlsx', sheet_name='Sheet1')

data1=df $'Relative Humidity'$

data1=np.array(data1)

data2=df $'Temp'$

data2=np.array(data2)

data3=df $'Wind'$

data3=np.array(data3)

DATA=np.vstack((data1,data2,data3)).T

K=range(2,9)

score=\[\]

for k in K:

kmeans=KMeans(n_clusters=k)

kmeans.fit(DATA)

score.append(silhouette_score(DATA,kmeans.labels_,metric='euclidean'))

plt.plot(K,score,'r*-')

plt.xlabel('k')

plt.ylabel(u'lkxs')

plt.title(u'K_vaule')

plt.show()

上一篇：《使用Gin框架构建分布式应用》阅读笔记：p393-p437

下一篇：[瑞吉外卖]-10前后端分离

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 09历年考研数学一、数学二、数学三真题试卷及答案PDF 102026 年 AI 大模型 & AI 编程工具实战全总结