sklearn中make_blobs方法:聚类数据生成器

sklearn中make_blobs()方法参数:

  • n_samples:表示数据样本点个数,默认值100

  • n_features:是每个样本的特征(或属性)数,也表示数据的维度,默认值是2。默认为 2 维数据,测试选取 2 维数据也方便进行可视化展示。

  • centers:表示类别数(标签的种类数),默认值3

  • cluster_std表示每个类别的方差,例如我们希望生成2类数据,其中一类比- 另一类具有更大的方差,可以将cluster_std设置为[1.0,3.0],浮点数或者浮点数序列,默认值1.0

  • center_box:中心确定之后的数据边界,默认值(-10.0, 10.0)

  • shuffle :将数据进行洗乱,默认值是True

  • random_state:官网解释是随机生成器的种子,可以固定生成的数据,给定数之后,每次生成的数据集就是固定的。

csharp 复制代码
X, y = make_blobs(n_samples=100, 
                  n_features=2,
                  centers=4, 
                  cluster_std=1.0, 
                  center_box=(-10.0, 10.0), 
                  shuffle=True, 
                  random_state=47)
plt.figure(figsize=(4, 3))
plt.scatter(X[:,0],X[:,1],c=y)
相关推荐
跟橙姐学代码18 分钟前
学Python必须迈过的一道坎:类和对象到底是什么鬼?
前端·python
eBest数字化转型方案28 分钟前
2025年快消品行业渠道数字化营销系统全景透视与选型策略
人工智能
kkcodeer43 分钟前
大模型Prompt原理、编写原则与技巧以及衡量方法
人工智能·prompt·ai大模型
卡洛斯(编程版44 分钟前
(1) 哈希表全思路-20天刷完Leetcode Hot 100计划
python·算法·leetcode
DevSecOps选型指南1 小时前
SBOM风险预警 | NPM前端框架 javaxscript 遭受投毒窃取浏览器cookie
前端·人工智能·前端框架·npm·软件供应链安全厂商·软件供应链安全工具
rocksun1 小时前
MCP利用流式HTTP实现实时AI工具交互
人工智能·mcp
FreakStudio1 小时前
一文速通 Python 并行计算:教程总结
python·pycharm·嵌入式·面向对象·并行计算
群联云防护小杜1 小时前
从一次 DDoS 的“死亡回放”看现代攻击链的进化
开发语言·python·linq
xiaok1 小时前
docker network create langbot-network这条命令在dify输入还是在langbot中输入
人工智能