K均值聚类算法的入门指南

大家好!今天我们来聊聊机器学习中的一个经典算法------K均值聚类(K-Means Clustering) 我们从两个方面来进行了解:

什么是K均值聚类? 为什么叫K均值?

什么是K均值聚类?

K均值聚类(K-Means Clustering)是一种非常流行的机器学习算法,用于将数据集分成K个不同的组,这些组被称为"簇"。这个算法的主要目的是让每个数据点到其所属簇的中心(质心)的距离最小化。

为什么叫K均值?

这个名字其实很直观:

  • K表示我们想要的簇的数量。
  • 均值是因为每个簇的中心是通过计算簇内所有数据点的平均值来确定的。

算法步骤

  1. 随机选择初始质心:首先,从数据集中随机挑选K个点作为初始质心。
  2. 分配数据点到最近的质心:然后,将所有的数据点分配到离它们最近的质心所对应的簇中。
  3. 更新质心:重新计算每个簇的质心,方法是取该簇内所有数据点的平均值。
  4. 重复步骤2和3:不断重复上述过程,直到质心不再发生变化或达到预设的迭代次数。

接下来我们用Python实现一个简单的K均值聚类,并附上测试效果。

记得检查Python环境 ,下载相关库可以看我之前的文章:numpy环境安装

Python代码示例

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 生成一些示例数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 使用KMeans进行聚类
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.title("K-Means Clustering")
plt.show()

代码解释

  1. 生成示例数据make_blobs函数生成了一些随机分布的二维数据点,这些点自然地聚集成四个簇。
  2. 创建KMeans对象并进行拟合KMeans(n_clusters=4)创建一个K均值聚类对象,指定我们要分成4个簇。fit方法对数据进行聚类。
  3. 预测簇标签predict方法返回每个数据点所属的簇的标签。
  4. 绘制结果:使用Matplotlib库绘制散点图,其中不同颜色表示不同的簇,红色大圆点表示质心。

配图说明

这张图展示了K均值聚类的结果。你可以看到,数据点被分成了四个簇,每个簇有一个红色的质心。这些质心的位置是通过计算簇内所有点的平均值得到的。

总结

K均值聚类算法简单易用,适用于大多数无监督学习任务。它通过不断优化质心的位置来最小化数据点到质心的距离,从而找到最优的簇划分。


相关推荐
我家大宝最可爱9 分钟前
推荐算法实践:movielens数据集
linux·算法·推荐算法
gentle_ice24 分钟前
搜索旋转排序数组(O(log n) 复杂度解法)
数据结构·算法·leetcode
王老师青少年编程26 分钟前
【如何掌握CSP-J 信奥赛中的分治算法】
数据结构·c++·算法·分治算法·csp·信奥赛
会蹦的鱼34 分钟前
算法16(力扣451)——根据字符出现频率排序
前端·算法·leetcode
Excuse_lighttime43 分钟前
二叉树的遍历方式和子问题思路
java·开发语言·数据结构·算法
陈老师还在写代码2 小时前
讲解一下SpringBoot的RPC连接
spring boot·后端·rpc
高一学习c++会秃头吗2 小时前
贪心算法_翻硬币
算法
码上飞扬2 小时前
云原生时代的后端开发:架构、工具与最佳实践
后端
昔我往昔2 小时前
Spring Boot部署到服务器
服务器·spring boot·后端
zhangj11252 小时前
Go语言sync包使用指南
开发语言·后端·golang