自定义数据集,使用scikit-learn 中K均值包 进行聚类

python 复制代码
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import numpy as np

class1_points = np.array([[1.9, 1.2],
                          [1.5, 2.1],
                          [1.9, 0.5],
                          [1.5, 0.9],
                          [0.9, 1.2],
                          [1.1, 1.7],
                          [1.4, 1.1]])

class2_points = np.array([[-1.9, 1.2],
                          [-1.5, 2.1],
                          [-1.9, 0.5],
                          [-1.5, 0.9],
                          [-0.9, 1.2],
                          [-1.1, 1.7],
                          [-1.4, 1.1]])

class3_points = np.array([[1.9, -1.2],
                          [1.5, -2.1],
                          [1.9, -0.5],
                          [1.5, -0.9],
                          [0.9, -1.2],
                          [1.1, -1.7],
                          [1.4, -1.1]])

class4_points = np.array([[-1.9, -1.2],
                          [-1.5, -2.1],
                          [-1.9, -0.5],
                          [-1.5, -0.9],
                          [-0.9, -1.2],
                          [-1.1, -1.7],
                          [-1.4, -1.1]])

data = np.concatenate((class1_points, class2_points, class3_points, class4_points))

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 6))

k = 4

ax1.scatter(data[:, 0], data[:, 1], s=50)
ax1.plot()

km = KMeans(n_clusters=k,max_iter=30)
km.fit(data)
centers = km.cluster_centers_
y_kmeans = km.predict(data)
print(y_kmeans)

for i in range(k):
    cluster_points = data[y_kmeans == i]
    centroid = centers[i]
    for cluster_points in cluster_points:
        ax2.plot([cluster_points[0], centroid[0]],[cluster_points[1], centroid[1]],'k--')

ax2.scatter(data[:, 0], data[:, 1], c = y_kmeans, s=50)
ax2.scatter(centers[:, 0], centers[:, 1], c='black', s=100, alpha=0.5)

plt.show()
相关推荐
执笔论英雄18 小时前
【RL] advantages白化与 GRPO中 advantages均值,怎么变化,
算法·均值算法
飞鸟恋上鱼4 天前
直播间实时评论系统的设计
均值算法·近邻算法·预编码算法
地球资源数据云4 天前
MODIS(MCD19A2)中国2000-2024年度平均气溶胶光学深度数据集
大数据·服务器·数据库·人工智能·均值算法
地球资源数据云5 天前
2019-2024年中国逐年10米分辨率最大值合成NDVI数据集
大数据·运维·服务器·数据库·均值算法
欧阳天羲5 天前
Scikit-Learn 入门:机器人 “故障检测” 分类任务实战
分类·机器人·scikit-learn
叫我:松哥6 天前
基于Flask的智能服装搭配推荐系统,采用协同过滤和内容过滤的混合推荐算法,支持虚拟试穿和个性化建议
人工智能·python·算法·信息可视化·flask·scikit-learn·推荐算法
郝学胜-神的一滴6 天前
文海撷英,数林建模:词袋模型之奥义与中文处理实践
人工智能·python·程序人生·ai·自然语言处理·scikit-learn
叫我:松哥6 天前
基于机器学习的智能健身风险分析系统,整合数据可视化与人工智能算法
人工智能·后端·python·算法·机器学习·信息可视化·scikit-learn
星川皆无恙6 天前
气象数据分析:基于python机器学习全国气象数据爬虫可视化预测分析系统
大数据·爬虫·python·机器学习·数据挖掘·数据分析·scikit-learn
写代码的【黑咖啡】7 天前
深入了解 Python 中的 Scikit-learn:机器学习的强大工具
python·机器学习·scikit-learn