k均值算法 聚类算法 k-means

首先我们导入科学计算的库

python 复制代码
import numpy as np
import matplotlib.pyplot as plt

直接我们生成一组数据,为了保证每次的数据是一致的,我们设置一个随机种子。

python 复制代码
np.random.seed(0)
X=np.random.rand(100,2)
print(X)

结果

然后我们就要开始写K-means算法

写一个模块函数

python 复制代码
def k_means(X,K,max_iters=100):
    #随机选择k个初始中心
    centroids=X[np.random.choice(X.shape[0],K,replace=False)]
#X.shape[0]告诉np.random.choice函数需要从0到数据点总数之间随机选择索引。
#K是指选择几个 replace指选择不重复的 然后用np.random.choice函数来从X里面选择几个不重复的
    
    for _ in range(max_iters):
    #1.分配每个数据点到最近的中心
        distances=np.linalg.norm(X[:,np.newaxis]-centroids,axis=2)#计算距离
        labels=np.argmin(distances,axis=1)#分配标签
                #2.更新中心
        new_centroids=np.array([X[labels==k].mean(axis=0) for k in range(K)])


        #如果中心不再变化,则停止
        if np.all(centroids==new_centroids):
            break
        centroids=new_centroids
    return labels,centroids
        
python 复制代码
K=3 #簇的数量
labels,centroids=k_means(X,K)

设置一下簇的数量,k-means算法每次都要设置k值

然后把最后的中心点和分类后的数据用matplotlib画出来

python 复制代码
plt.scatter(X[:,0],X[:,1],c=labels,cmap='viridis',marker='o')#绘制数据点
plt.scatter(centroids[:,0],centroids[:,1],c='red',marker='x',s=200)#绘制中心点
plt.title('k-means Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()
相关推荐
郝学胜-神的一滴8 分钟前
[ 力扣 1124 ] 解锁最长良好时段问题:前缀和+哈希表的优雅解法
java·开发语言·数据结构·python·算法·leetcode·散列表
戴西软件9 分钟前
戴西CAxWorks.VPG车辆工程仿真软件|假人+座椅双调整 汽车仿真效率直接拉满
java·开发语言·人工智能·python·算法·ui·汽车
Tairitsu_H10 分钟前
C++入门指南:从基础语法到核心特性全解析
c++·算法·基础
programhelp_11 分钟前
2026 高盛(Goldman Sachs)Coding Interview 真题分享|Design HashMap + 其他面试题完整解析
算法·哈希算法
Pentane.15 分钟前
力扣HOT100:T.1 两数之和|循环遍历算法笔记及打卡(12/100)
c++·笔记·算法·leetcode
王老师青少年编程16 分钟前
csp信奥赛C++高频考点专项训练之贪心算法 --【线性扫描贪心】:士兵站队
c++·算法·贪心算法·csp·信奥赛·线性扫描贪心·士兵战队
无限进步_19 分钟前
二叉树的中序遍历(非递归实现)
开发语言·数据结构·c++·windows·算法·visual studio
计算机安禾25 分钟前
【数据结构与算法】第48篇:算法思想(三):贪心算法
c语言·开发语言·数据结构·算法·贪心算法·代理模式·图论
_深海凉_31 分钟前
LeetCode热题100-爬楼梯
算法·leetcode·职场和发展
j_xxx404_32 分钟前
力扣C++算法:哈希表(存在重复元素|存在重复元素II|字母异位词分组)
算法·leetcode·散列表