sklearn中make_blobs方法:聚类数据生成器

sklearn中make_blobs()方法参数:

  • n_samples:表示数据样本点个数,默认值100

  • n_features:是每个样本的特征(或属性)数,也表示数据的维度,默认值是2。默认为 2 维数据,测试选取 2 维数据也方便进行可视化展示。

  • centers:表示类别数(标签的种类数),默认值3

  • cluster_std表示每个类别的方差,例如我们希望生成2类数据,其中一类比- 另一类具有更大的方差,可以将cluster_std设置为[1.0,3.0],浮点数或者浮点数序列,默认值1.0

  • center_box:中心确定之后的数据边界,默认值(-10.0, 10.0)

  • shuffle :将数据进行洗乱,默认值是True

  • random_state:官网解释是随机生成器的种子,可以固定生成的数据,给定数之后,每次生成的数据集就是固定的。

csharp 复制代码
X, y = make_blobs(n_samples=100, 
                  n_features=2,
                  centers=4, 
                  cluster_std=1.0, 
                  center_box=(-10.0, 10.0), 
                  shuffle=True, 
                  random_state=47)
plt.figure(figsize=(4, 3))
plt.scatter(X[:,0],X[:,1],c=y)
相关推荐
kali-Myon几秒前
NewStarCTF2025-Week5-Web
java·python·安全·web安全·php·web·ctf
海边夕阳20064 分钟前
【每天一个AI小知识】:什么是Prompt?
人工智能·prompt
DFT计算杂谈5 分钟前
Abinit-10.4.7安装教程
linux·数据库·python·算法·matlab
KKKlucifer5 分钟前
数据分类分级为基的跨域流通权限动态管控技术:构建安全可控的跨域数据流通体系
大数据·数据库·人工智能
机器之心10 分钟前
NeurIPS 2025 | DePass:通过单次前向传播分解实现统一的特征归因
人工智能·openai
机器之心12 分钟前
NeurIPS 2025 | 英伟达发布Nemotron-Flash:以GPU延迟为核心重塑小模型架构
人工智能·openai
sali-tec14 分钟前
C# 基于halcon的视觉工作流-章65 点云匹配-基于形状
开发语言·人工智能·算法·计算机视觉·c#
科学最TOP15 分钟前
时间序列的“语言”:从语言模型视角理解时序基础模型
人工智能·深度学习·机器学习·时间序列
_codemonster15 分钟前
深度学习实战(基于pytroch)系列(四十四) 优化与深度学习
人工智能·深度学习
白日做梦Q18 分钟前
深度学习训练中 Loss 为 Nan 的 10 种原因及解决方案
人工智能·深度学习