sklearn中make_blobs方法:聚类数据生成器

sklearn中make_blobs()方法参数:

  • n_samples:表示数据样本点个数,默认值100

  • n_features:是每个样本的特征(或属性)数,也表示数据的维度,默认值是2。默认为 2 维数据,测试选取 2 维数据也方便进行可视化展示。

  • centers:表示类别数(标签的种类数),默认值3

  • cluster_std表示每个类别的方差,例如我们希望生成2类数据,其中一类比- 另一类具有更大的方差,可以将cluster_std设置为[1.0,3.0],浮点数或者浮点数序列,默认值1.0

  • center_box:中心确定之后的数据边界,默认值(-10.0, 10.0)

  • shuffle :将数据进行洗乱,默认值是True

  • random_state:官网解释是随机生成器的种子,可以固定生成的数据,给定数之后,每次生成的数据集就是固定的。

csharp 复制代码
X, y = make_blobs(n_samples=100, 
                  n_features=2,
                  centers=4, 
                  cluster_std=1.0, 
                  center_box=(-10.0, 10.0), 
                  shuffle=True, 
                  random_state=47)
plt.figure(figsize=(4, 3))
plt.scatter(X[:,0],X[:,1],c=y)
相关推荐
沙子可可27 分钟前
深入学习Pytorch:第一章-初步认知
人工智能·pytorch·深度学习·学习
搬砖的阿wei30 分钟前
Matplotlib:数据可视化的艺术与科学
python·信息可视化·matplotlib
船长@Quant42 分钟前
Airflow量化入门系列:第四章 A股数据处理与存储优化
python·量化交易·airflow·dask·工作流编排·ta-lib·vectorbt
灿烂的贝壳1 小时前
【算法实践】算法面试常见问题——数组的波浪排序
python·算法·排序算法·波浪序
云隐智者1 小时前
如何通过Python实现自动化任务:从入门到实践
python
风吹落叶花飘荡1 小时前
2025年 能够有效提升AI的生成质量和逻辑严谨性 的通用型系统提示
人工智能
云隐智者1 小时前
从零开始构建一个简单的Web爬虫:Python实战教程
python
云卷风舒1 小时前
Fedora 40 开机启动失败,不重装系统,如何恢复成功 ?(附带恢复过程)
人工智能·claude·fedora
豆芽8191 小时前
决策树(DecisionTree)
python·决策树·机器学习·pyqt·sklearn