sklearn中make_blobs方法:聚类数据生成器

sklearn中make_blobs()方法参数:

  • n_samples:表示数据样本点个数,默认值100

  • n_features:是每个样本的特征(或属性)数,也表示数据的维度,默认值是2。默认为 2 维数据,测试选取 2 维数据也方便进行可视化展示。

  • centers:表示类别数(标签的种类数),默认值3

  • cluster_std表示每个类别的方差,例如我们希望生成2类数据,其中一类比- 另一类具有更大的方差,可以将cluster_std设置为[1.0,3.0],浮点数或者浮点数序列,默认值1.0

  • center_box:中心确定之后的数据边界,默认值(-10.0, 10.0)

  • shuffle :将数据进行洗乱,默认值是True

  • random_state:官网解释是随机生成器的种子,可以固定生成的数据,给定数之后,每次生成的数据集就是固定的。

csharp 复制代码
X, y = make_blobs(n_samples=100, 
                  n_features=2,
                  centers=4, 
                  cluster_std=1.0, 
                  center_box=(-10.0, 10.0), 
                  shuffle=True, 
                  random_state=47)
plt.figure(figsize=(4, 3))
plt.scatter(X[:,0],X[:,1],c=y)
相关推荐
龙孚信息1 天前
Xometry百万流量案例分析:企业内容分发基础设施构建策略
人工智能
AI砖家1 天前
Claude Code Superpowers 安装使用指南:让 AI 编程从“业余”走向“工程化”
前端·人工智能·python·ai编程·代码规范
YBAdvanceFu1 天前
拆解 MusicGen:Meta 开源音乐大模型,到底是怎么跑起来的?
人工智能·深度学习·机器学习·数据挖掘·transformer·agent·智能体
极光代码工作室1 天前
基于深度学习的微博情感分析系统
人工智能·深度学习·神经网络·nlp·情感分析
huisheng_qaq1 天前
【AI入门篇-02】深入理解ChatGPT发展流程
人工智能·gpt·ai·chatgpt·大模型·transfomer
带娃的IT创业者1 天前
US Cities Are Axing Flock Safety Surveillance Technology: 当监控之眼被蒙上,我们在守护什么?
人工智能·智慧城市·数据治理·公共安全·隐私保护·监控技术·技术伦理
计算机毕业编程指导师1 天前
【计算机毕设推荐】Python+Spark卵巢癌风险数据可视化系统完整实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
hadoop·python·计算机·数据挖掘·spark·毕业设计·卵巢癌
愚公搬代码1 天前
【愚公系列】《AI漫剧创作一本通》004-剧本拆解,把小说改编为可落地的脚本(爆款AI漫剧,从选择合适的小说开始)
人工智能·ai漫剧
玩转单片机与嵌入式1 天前
学习嵌入式AI(TInyML),只需掌握这点python基础即可!
人工智能·python·学习