金融机器学习方法:K-均值算法

目录

1.算法介绍

2.算法原理

3.python实现示例


1.算法介绍

K均值聚类算法是机器学习和数据分析中常用的无监督学习方法之一,主要用于数据的分类。它的目标是将数据划分为几个独特的、互不重叠的子集或"集群",以使得同一集群内的数据点彼此相似,而不同集群的数据点则尽可能不同。

2.算法原理

  1. 选择K个初始质心,这些质心可以是随机选取的数据点或其他方法得到的。
  2. 根据每个数据点到质心的距离,将其分配给最近的质心,形成K个集群。
  3. 重新计算每个集群的质心。
  4. 重复上述步骤,直到质心不再发生变化或达到一定的迭代次数

3.python实现示例

python 复制代码
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 随机生成数据
np.random.seed(0)
points = np.vstack([
    np.random.normal(0, 0.5, size=(100, 2)),
    np.random.normal(1, 0.25, size=(100, 2)),
    np.random.normal(2, 0.6, size=(100, 2))
])

# 使用KMeans进行聚类
kmeans = KMeans(n_clusters=3)
kmeans.fit(points)
labels = kmeans.predict(points)
centroids = kmeans.cluster_centers_

# 可视化结果
plt.scatter(points[:, 0], points[:, 1], c=labels)
plt.scatter(centroids[:, 0], centroids[:, 1], color='red', marker='X')
plt.show()

结果图:


相关推荐
JunLa1 分钟前
Java语法糖
java·python·哈希算法
财经资讯数据_灵砚智能3 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月21日
大数据·人工智能·python·信息可视化·自然语言处理
水木流年追梦6 分钟前
大模型入门-RL基础
开发语言·python·算法·leetcode·正则表达式
Cthy_hy8 分钟前
基于首届中国互联网数据挖掘竞赛数据集的行为相似网络分析
python·信息可视化·数据挖掘
枕星而眠8 分钟前
C++ String类精讲:从基础用法到进阶底层原理
开发语言·c++·后端·学习方法
AI玫瑰助手12 分钟前
Python运算符:逻辑运算符(and/or/not)的短路特性
开发语言·python·信息可视化
是梦终空12 分钟前
计算机源码274—基于深度学习的中医舌象智能识别与健康管理系统(源代码+数据库+12000字论文)
人工智能·python·深度学习·opencv·django·vue·springboot
明志数科14 分钟前
具身智能数据标注工具对比评测:6大平台横向测评
开发语言·python
杨超越luckly16 分钟前
HTML应用指南:利用GET请求获取智己汽车门店位置信息
python·arcgis·html·汽车·数据可视化
码界筑梦坊17 分钟前
132-基于Python的中老年体检数据可视化分析系统
开发语言·python·信息可视化·flask·毕业设计