自定义数据集,使用scikit-learn 中K均值包 进行聚类

数据集生成:

  • 使用 make_blobs 函数生成包含300个样本的数据集,设定聚类中心为4个,聚类标准差为0.60,随机种子 random_state = 0 保证每次运行生成的数据相同。

K - 均值模型:

  • 初始化 KMeans 类,设置聚类数 n_clusters = 4 ,并使用 random_state = 0 确保每次运行结果一致。

  • 使用 fit 方法将模型拟合到生成的数据集 X 上。

获取结果:

  • 通过 labels_ 属性获取每个样本的聚类标签。

  • 通过 cluster_centers_ 属性获取聚类中心的坐标。

可视化:

  • 使用 matplotlib 库进行可视化。将样本点根据其聚类标签用不同颜色绘制,聚类中心用红色的 x 标记绘制

import numpy as np

from sklearn.datasets import make_blobs

from sklearn.cluster import KMeans

import matplotlib.pyplot as plt

生成自定义数据集

X, _ = make_blobs(n_samples = 300, centers = 4,

cluster_std = 0.60, random_state = 0)

初始化并拟合K - 均值模型

kmeans = KMeans(n_clusters = 4, random_state = 0)

kmeans.fit(X)

获取聚类标签

labels = kmeans.labels_

获取聚类中心

cluster_centers = kmeans.cluster_centers_

可视化聚类结果

plt.scatter(X[:, 0], X[:, 1], c = labels, cmap='viridis')

plt.scatter(cluster_centers[:, 0], cluster_centers[:, 1], marker='x', s=200, linewidths = 3, color='r')

plt.title('K - Means Clustering')

plt.xlabel('Feature 1')

plt.ylabel('Feature 2')

plt.show()

相关推荐
AI科技星12 小时前
引力与电磁的动力学耦合:变化磁场产生引力场与电场方程的第一性原理推导、验证与统一性意义
服务器·人工智能·科技·线性代数·算法·机器学习·生活
xiao5kou4chang6kai412 小时前
面向自然科学领域机器学习与深度学习(高维数据预处理—可解释ML/DL—时空建模—不确定性量化-全程AI+Python)
人工智能·深度学习·机器学习·不确定性量化·时空建模·高维数据预处理·可解释ml/dl
光羽隹衡12 小时前
机器学习——DBSCAN算法
人工智能·算法·机器学习
sonadorje12 小时前
机器学习中的逻辑回归
人工智能·机器学习·逻辑回归
渡我白衣13 小时前
计算机组成原理(14):算术逻辑单元ALU
大数据·人工智能·算法·机器学习·计组·数电·alu
深度之眼13 小时前
机器学习可解释性的研究进展!
深度学习·机器学习·可解释性
源于花海13 小时前
迁移学习的第一类方法:数据分布自适应(3)——联合分布自适应
人工智能·机器学习·迁移学习·联合分布自适应
武子康13 小时前
大数据-208 岭回归与Lasso回归:区别、应用与选择指南
大数据·后端·机器学习
RockHopper202513 小时前
驾驶认知的本质:人类模式 vs 端到端自动驾驶
人工智能·神经网络·机器学习·自动驾驶·具身认知
Yzzz-F13 小时前
P4145 上帝造题的七分钟 2 / 花神游历各国[线段树 区间开方(剪枝) + 区间求和]
算法·机器学习·剪枝