K均值聚类算法的入门指南

大家好!今天我们来聊聊机器学习中的一个经典算法------K均值聚类(K-Means Clustering) 我们从两个方面来进行了解:

什么是K均值聚类? 为什么叫K均值?

什么是K均值聚类?

K均值聚类(K-Means Clustering)是一种非常流行的机器学习算法,用于将数据集分成K个不同的组,这些组被称为"簇"。这个算法的主要目的是让每个数据点到其所属簇的中心(质心)的距离最小化。

为什么叫K均值?

这个名字其实很直观:

  • K表示我们想要的簇的数量。
  • 均值是因为每个簇的中心是通过计算簇内所有数据点的平均值来确定的。

算法步骤

  1. 随机选择初始质心:首先,从数据集中随机挑选K个点作为初始质心。
  2. 分配数据点到最近的质心:然后,将所有的数据点分配到离它们最近的质心所对应的簇中。
  3. 更新质心:重新计算每个簇的质心,方法是取该簇内所有数据点的平均值。
  4. 重复步骤2和3:不断重复上述过程,直到质心不再发生变化或达到预设的迭代次数。

接下来我们用Python实现一个简单的K均值聚类,并附上测试效果。

记得检查Python环境 ,下载相关库可以看我之前的文章:numpy环境安装

Python代码示例

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 生成一些示例数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 使用KMeans进行聚类
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.title("K-Means Clustering")
plt.show()

代码解释

  1. 生成示例数据make_blobs函数生成了一些随机分布的二维数据点,这些点自然地聚集成四个簇。
  2. 创建KMeans对象并进行拟合KMeans(n_clusters=4)创建一个K均值聚类对象,指定我们要分成4个簇。fit方法对数据进行聚类。
  3. 预测簇标签predict方法返回每个数据点所属的簇的标签。
  4. 绘制结果:使用Matplotlib库绘制散点图,其中不同颜色表示不同的簇,红色大圆点表示质心。

配图说明

这张图展示了K均值聚类的结果。你可以看到,数据点被分成了四个簇,每个簇有一个红色的质心。这些质心的位置是通过计算簇内所有点的平均值得到的。

总结

K均值聚类算法简单易用,适用于大多数无监督学习任务。它通过不断优化质心的位置来最小化数据点到质心的距离,从而找到最优的簇划分。


相关推荐
小信啊啊20 分钟前
Go语言切片slice
开发语言·后端·golang
tang&31 分钟前
滑动窗口:双指针的优雅舞步,征服连续区间问题的利器
数据结构·算法·哈希算法·滑动窗口
拼命鼠鼠36 分钟前
【算法】矩阵链乘法的动态规划算法
算法·矩阵·动态规划
LYFlied1 小时前
【每日算法】LeetCode 17. 电话号码的字母组合
前端·算法·leetcode·面试·职场和发展
式5161 小时前
线性代数(八)非齐次方程组的解的结构
线性代数·算法·机器学习
Victor3562 小时前
Netty(20)如何实现基于Netty的WebSocket服务器?
后端
缘不易2 小时前
Springboot 整合JustAuth实现gitee授权登录
spring boot·后端·gitee
橘颂TA2 小时前
【剑斩OFFER】算法的暴力美学——翻转对
算法·排序算法·结构与算法
叠叠乐2 小时前
robot_state_publisher 参数
java·前端·算法
Kiri霧2 小时前
Range循环和切片
前端·后端·学习·golang