sklearn中make_blobs方法:聚类数据生成器

sklearn中make_blobs()方法参数:

  • n_samples:表示数据样本点个数,默认值100

  • n_features:是每个样本的特征(或属性)数,也表示数据的维度,默认值是2。默认为 2 维数据,测试选取 2 维数据也方便进行可视化展示。

  • centers:表示类别数(标签的种类数),默认值3

  • cluster_std表示每个类别的方差,例如我们希望生成2类数据,其中一类比- 另一类具有更大的方差,可以将cluster_std设置为[1.0,3.0],浮点数或者浮点数序列,默认值1.0

  • center_box:中心确定之后的数据边界,默认值(-10.0, 10.0)

  • shuffle :将数据进行洗乱,默认值是True

  • random_state:官网解释是随机生成器的种子,可以固定生成的数据,给定数之后,每次生成的数据集就是固定的。

csharp 复制代码
X, y = make_blobs(n_samples=100, 
                  n_features=2,
                  centers=4, 
                  cluster_std=1.0, 
                  center_box=(-10.0, 10.0), 
                  shuffle=True, 
                  random_state=47)
plt.figure(figsize=(4, 3))
plt.scatter(X[:,0],X[:,1],c=y)
相关推荐
Jamence15 分钟前
多模态大语言模型arxiv论文略读(七十六)
人工智能·语言模型·自然语言处理
与火星的孩子对话16 分钟前
Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术、支持中英文自定义编辑- 基于 C# 语言开发
人工智能·unity·c#·游戏引擎·宠物·lipsync
CryptoRzz20 分钟前
股票数据源对接技术指南:印度尼西亚、印度、韩国
数据库·python·金融·数据分析·区块链
Data-Miner27 分钟前
35页AI应用PPT《DeepSeek如何赋能职场应用》DeepSeek本地化部署与应用案例合集
人工智能
KangkangLoveNLP28 分钟前
Llama:开源的急先锋
人工智能·深度学习·神经网络·算法·机器学习·自然语言处理·llama
白熊18833 分钟前
【通用智能体】Serper API 详解:搜索引擎数据获取的核心工具
人工智能·搜索引擎·大模型
胖哥真不错41 分钟前
Python实现NOA星雀优化算法优化卷积神经网络CNN回归模型项目实战
python·cnn·卷积神经网络·项目实战·cnn回归模型·noa星雀优化算法
云卓SKYDROID42 分钟前
无人机屏蔽与滤波技术模块运行方式概述!
人工智能·无人机·航电系统·科普·云卓科技
小oo呆1 小时前
【自然语言处理与大模型】向量数据库技术
数据库·人工智能·自然语言处理
RuizhiHe1 小时前
从零开始实现大语言模型(十五):并行计算与分布式机器学习
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型