自定义数据集,使用scikit-learn 中K均值包 进行聚类

数据集生成:

  • 使用 make_blobs 函数生成包含300个样本的数据集,设定聚类中心为4个,聚类标准差为0.60,随机种子 random_state = 0 保证每次运行生成的数据相同。

K - 均值模型:

  • 初始化 KMeans 类,设置聚类数 n_clusters = 4 ,并使用 random_state = 0 确保每次运行结果一致。

  • 使用 fit 方法将模型拟合到生成的数据集 X 上。

获取结果:

  • 通过 labels_ 属性获取每个样本的聚类标签。

  • 通过 cluster_centers_ 属性获取聚类中心的坐标。

可视化:

  • 使用 matplotlib 库进行可视化。将样本点根据其聚类标签用不同颜色绘制,聚类中心用红色的 x 标记绘制

import numpy as np

from sklearn.datasets import make_blobs

from sklearn.cluster import KMeans

import matplotlib.pyplot as plt

生成自定义数据集

X, _ = make_blobs(n_samples = 300, centers = 4,

cluster_std = 0.60, random_state = 0)

初始化并拟合K - 均值模型

kmeans = KMeans(n_clusters = 4, random_state = 0)

kmeans.fit(X)

获取聚类标签

labels = kmeans.labels_

获取聚类中心

cluster_centers = kmeans.cluster_centers_

可视化聚类结果

plt.scatter(X[:, 0], X[:, 1], c = labels, cmap='viridis')

plt.scatter(cluster_centers[:, 0], cluster_centers[:, 1], marker='x', s=200, linewidths = 3, color='r')

plt.title('K - Means Clustering')

plt.xlabel('Feature 1')

plt.ylabel('Feature 2')

plt.show()

相关推荐
zhangfeng11335 小时前
氨基酸序列表示法,蛋白质序列表达 计算机中机器学习 大语言模型中的表达,为什么没有糖蛋白或者其他基团磷酸化甲基化乙酰化泛素化
人工智能·机器学习·语言模型
OpenBayes6 小时前
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
人工智能·深度学习·目标检测·机器学习·大模型·ocr·gpu算力
Eloudy7 小时前
直接法 读书笔记 01 第1章 引言
人工智能·机器学习·hpc
AEIC学术交流中心8 小时前
【快速EI检索 | SPIE出版】2026年机器学习与大模型国际学术会议(ICMLM 2026)
人工智能·机器学习
Daydream.V9 小时前
逻辑回归实例问题解决(LogisticRegression)
算法·机器学习·逻辑回归
纤纡.9 小时前
逻辑回归实战进阶:交叉验证与采样技术破解数据痛点(二)
算法·机器学习·逻辑回归
岱宗夫up9 小时前
机器学习:标准化流模型(NF)
人工智能·python·机器学习·生成对抗网络
deep_drink10 小时前
【基础知识一】线性代数的核心:从矩阵变换到 SVD 终极奥义
线性代数·机器学习·矩阵
山居秋暝LS10 小时前
Padim模型参数
人工智能·机器学习
Rorsion10 小时前
机器学习过程(从机器学习到深度学习)
人工智能·深度学习·机器学习