K-means

1.算法流程

1.1 确定参数:指定要划分的簇数k。

1.2 初始化质心:从所有数据样本中随机选取k个样本,作为k个簇的初始 "质心"。

1.3 样本分配:计算每个样本到k个质心的距离,将样本分配给距离最近的质心所属的簇。

1.4 更新质心:对每个簇,计算其所有样本的特征均值,用这个均值替换原质心。

1.5 迭代收敛:重复 "样本分配→更新质心" 的步骤,直到质心的位置不再明显变化,算法停止。

2.代码实现

python 复制代码
# -*- coding: utf-8 -*-


import numpy as np
import matplotlib.pyplot as plt

def L2(vecXi, vecXj):
    '''
    计算欧氏距离
    para vecXi:点坐标,向量
    para vecXj:点坐标,向量
    retrurn: 两点之间的欧氏距离
    '''
    return np.sqrt(np.sum(np.power(vecXi - vecXj, 2)))

def kMeans(S, k, distMeas=L2):
    '''
    K均值聚类
    para S:样本集,多维数组
    para k:簇个数
    para distMeas:距离度量函数,默认为欧氏距离计算函数
    return sampleTag:一维数组,存储样本对应的簇标记
    return clusterCents:一维数组,各簇中心
    retrun SSE:误差平方和
    '''
    m = np.shape(S)[0] # 样本总数
    sampleTag = np.zeros(m)
    
    # 随机产生k个初始簇中心
    n = np.shape(S)[1] # 样本向量的特征数
    clusterCents = np.mat([[-1.93964824,2.33260803],[7.79822795,6.72621783],[10.64183154,0.20088133]])
    #clusterCents = np.mat(np.zeros((k,n)))
    #for j in range(n):
    #    minJ = min(S[:,j]) 
    #    rangeJ = float(max(S[:,j]) - minJ)
    #    clusterCents[:,j] = np.mat(minJ + rangeJ * np.random.rand(k,1))
        
    sampleTagChanged = True
    SSE = 0.0
    while sampleTagChanged: # 如果没有点发生分配结果改变,则结束
        sampleTagChanged = False
        SSE = 0.0
        
        # 计算每个样本点到各簇中心的距离
        for i in range(m):
            minD = np.inf
            minIndex = -1
            for j in range(k):
                d = distMeas(clusterCents[j,:],S[i,:])
                if d < minD:
                    minD = d
                    minIndex = j
            if sampleTag[i] != minIndex: 
                sampleTagChanged = True
            sampleTag[i] = minIndex
            SSE += minD**2
        print(clusterCents)
        plt.scatter(clusterCents[:,0].tolist(),clusterCents[:,1].tolist(),c='r',marker='^',linewidths=7)
        plt.scatter(S[:,0],S[:,1],c=sampleTag,linewidths=np.power(sampleTag+0.5, 2))
        plt.show()
        print(SSE)
        
        # 重新计算簇中心
        for i in range(k):
            ClustI = S[np.nonzero(sampleTag[:]==i)[0]]
            clusterCents[i,:] = np.mean(ClustI, axis=0) 
    return clusterCents, sampleTag, SSE

if __name__=='__main__':
    samples = np.loadtxt("kmeansSamples.txt")
    clusterCents, sampleTag, SSE = kMeans(samples, 3)
    #plt.scatter(clusterCents[:,0].tolist(),clusterCents[:,1].tolist(),c='r',marker='^')
    #plt.scatter(samples[:,0],samples[:,1],c=sampleTag,linewidths=np.power(sampleTag+0.5, 2))
    plt.show()
    print(clusterCents)
    print(SSE)
相关推荐
2601_95947963几秒前
ZFX山海证券:“美股新高映射盈利支撑”
人工智能
weixin_446260852 分钟前
VideoFDB 深度分析:全双工视听对话智能体评估基准
人工智能
新加坡内哥谈技术2 分钟前
Claude Code 中动态工作流(Dynamic Workflows)
人工智能
救救孩子把2 分钟前
78-机器学习与大模型开发数学教程-7-6 自注意力机制的计算复杂度分析
人工智能·机器学习
XMAIPC_Robot3 分钟前
基于RK3588 ARM+FPGA电火花数控机床控制系统设计,兼顾ethercat软硬件实时
linux·arm开发·人工智能·嵌入式硬件·fpga开发
见合八方3 分钟前
【滤波器】热调谐FP滤波器
人工智能·算法
古城小栈4 分钟前
cargo-pprof:Rust性能调优
人工智能·算法·rust
程序大视界5 分钟前
Google I/O 2026 全解析:Gemini 3.5 Flash 免费用、4倍速碾压 GPT-5.5,AI 迎来“Agent 时代“
人工智能·gpt
sunneo6 分钟前
S1.2损失厌恶与用户忠诚度的关系:让用户觉得离开是一种损失
人工智能·产品运营·产品经理·用户运营·用户体验
段一凡-华北理工大学8 分钟前
工业领域的Hadoop架构学习~系列文章05:Kafka消息队列 - 工业数据流传输
人工智能·hadoop·学习·架构·kafka·工业智能体·高炉炼铁智能化