自定义数据集,使用scikit-learn 中K均值包 进行聚类

1. 引言

K均值聚类是一种无监督学习方法,用于将数据集分为多个簇。通过计算数据点之间的距离并将它们分配到最近的簇中心,K均值算法可以帮助我们发现数据中的自然结构。

2. 数据集创建

首先,我们使用numpy创建一个自定义的二维数据集:

复制代码
import numpy as np

# 创建一个简单的二维数据集
X = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])
3. 导入K均值并进行聚类

接下来,我们使用scikit-learn中的K均值算法进行聚类。

复制代码
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 使用K均值聚类,设定簇的数量为2
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)

# 获取簇的中心和标签
centroids = kmeans.cluster_centers_
labels = kmeans.labels_
4. 可视化结果

为了更好地理解聚类结果,我们可以使用matplotlib来可视化数据点和簇的中心。

复制代码
# 绘制数据点和簇的中心
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')

# 标出簇的中心
plt.scatter(centroids[:, 0], centroids[:, 1], s=200, c='red', marker='X')
plt.show()
5. 总结

通过K均值聚类,我们成功地将数据集分为两个簇,并通过可视化方式直观展示了聚类结果。K均值算法的核心思想是通过计算点与簇中心的距离进行分组,并不断迭代优化簇的中心位置。

相关推荐
小庞在加油13 小时前
《dlib库中的聚类》算法详解:从原理到实践
c++·算法·机器学习·数据挖掘·聚类
程序员阿超的博客17 小时前
Python 数据分析与机器学习入门 (八):用 Scikit-Learn 跑通第一个机器学习模型
python·机器学习·数据分析·scikit-learn·入门教程·python教程
西猫雷婶13 天前
python学智能算法(十五)|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理
人工智能·python·深度学习·机器学习·scikit-learn
拓端研究室TRL14 天前
Python古代文物成分分析与鉴别研究:灰色关联度、岭回归、K-means聚类、决策树分析
python·决策树·回归·kmeans·聚类
AI妈妈手把手16 天前
二分K-means:让聚类更高效、更精准!
机器学习·支持向量机·kmeans·聚类·聚类算法·python实现·二分k-means
IT古董16 天前
【第二章:机器学习与神经网络概述】01.聚类算法理论与实践-(1)K-means聚类算法
人工智能·算法·聚类
TY-202517 天前
机器学习算法_聚类KMeans算法
算法·机器学习·聚类
dundunmm18 天前
【论文阅读】Multi-Class Cell Detection Using Spatial Context Representation
论文阅读·深度学习·分类·聚类·生物信息·深度聚类·细胞识别
ghie909021 天前
LMD分解通过局部均值分解重构信号实现对信号的降噪
算法·均值算法·重构
Blossom.11821 天前
基于深度学习的异常检测系统:原理、实现与应用
人工智能·深度学习·神经网络·目标检测·机器学习·scikit-learn·sklearn