自定义数据集,使用scikit-learn 中K均值包 进行聚类

数据集生成:

  • 使用 make_blobs 函数生成包含300个样本的数据集,设定聚类中心为4个,聚类标准差为0.60,随机种子 random_state = 0 保证每次运行生成的数据相同。

K - 均值模型:

  • 初始化 KMeans 类,设置聚类数 n_clusters = 4 ,并使用 random_state = 0 确保每次运行结果一致。

  • 使用 fit 方法将模型拟合到生成的数据集 X 上。

获取结果:

  • 通过 labels_ 属性获取每个样本的聚类标签。

  • 通过 cluster_centers_ 属性获取聚类中心的坐标。

可视化:

  • 使用 matplotlib 库进行可视化。将样本点根据其聚类标签用不同颜色绘制,聚类中心用红色的 x 标记绘制

import numpy as np

from sklearn.datasets import make_blobs

from sklearn.cluster import KMeans

import matplotlib.pyplot as plt

生成自定义数据集

X, _ = make_blobs(n_samples = 300, centers = 4,

cluster_std = 0.60, random_state = 0)

初始化并拟合K - 均值模型

kmeans = KMeans(n_clusters = 4, random_state = 0)

kmeans.fit(X)

获取聚类标签

labels = kmeans.labels_

获取聚类中心

cluster_centers = kmeans.cluster_centers_

可视化聚类结果

plt.scatter(X:, 0, X:, 1, c = labels, cmap='viridis')

plt.scatter(cluster_centers:, 0, cluster_centers:, 1, marker='x', s=200, linewidths = 3, color='r')

plt.title('K - Means Clustering')

plt.xlabel('Feature 1')

plt.ylabel('Feature 2')

plt.show()

相关推荐
逻辑君1 小时前
认知神经科学研究报告【20260071】
人工智能·深度学习·机器学习·数学建模
deephub1 小时前
相关性与因果性:识别伪相关以提升模型在真实环境的可用性
人工智能·机器学习·数据挖掘·数据分析
光之后裔1 小时前
用自定义数据集微调PP-OCRv5文本检测、识别模型
python·机器学习·ocr
qq_382949223 小时前
企业级机器学习落地实战(含源码与课件)
人工智能·机器学习
极光代码工作室3 小时前
基于机器学习的金融风险预测系统
python·深度学习·机器学习·ai·系统设计
zzzzzz3103 小时前
LMCache 深度解析:LLM 推理加速的秘密武器,TTFT 降低 13 倍是怎么做到的?
pytorch·机器学习·orm
小糖学代码4 小时前
机器学习:9.贝叶斯分类器
人工智能·机器学习
MemoriKu4 小时前
Flutter 相册 APP 收尾优化实战:未分析任务横幅持久隐藏与标签回归测试补强
大数据·人工智能·flutter·elasticsearch·机器学习·搜索引擎·重构
林间码客4 小时前
02数据挖掘:数据属性、类型与相似性度量
人工智能·算法·机器学习
王小王-1235 小时前
基于多种机器学习的豆瓣电影分析与可视化预测评估系统
人工智能·机器学习·flask·豆瓣电影·电影评分预测·影评分析·哪吒电影评论分析