sklearn.datasets中make_classification函数

make_classificationsklearn.datasets 模块中的一个函数,用于生成一个用于分类任务的虚拟数据集。它允许你生成具有指定特征、类别和噪声等属性的人工数据集,通常用于测试和演示机器学习算法。

语法

python 复制代码
from sklearn.datasets import make_classification

make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=2,
                     n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01,
                     class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True,
                     random_state=None)

参数说明

  • n_samples : 样本数量,默认值是 100。决定数据集中的样本数。
  • n_features : 特征数量,默认值是 20。生成的特征的总数。
  • n_informative : 有信息的特征数量,默认值是 2。这些特征对目标变量有实际影响。
  • n_redundant : 冗余特征的数量,默认值是 2。这些特征是从现有的有信息特征中线性组合而来,不提供额外的有用信息。
  • n_classes : 类别数,默认值是 2。目标变量的类别数量。
  • n_clusters_per_class : 每个类别中的簇数,默认值是 2。用于定义类别的分布。
  • weights : 每个类的样本权重,默认值是 None。可以用来设置每个类别的样本比例。
  • flip_y : 标签的随机噪声比例,默认值是 0.01。可以用来模拟标签中的噪声。
  • class_sep : 类别之间的分隔度,默认值是 1.0。较大的值意味着类别之间更容易分开,较小的值会导致类别重叠。
  • hypercube : 是否生成超立方体形状的特征空间,默认值是 True
  • shift : 对生成的特征进行平移,默认值是 0.0
  • scale : 对生成的特征进行缩放,默认值是 1.0
  • shuffle : 是否打乱样本顺序,默认值是 True
  • random_state: 随机数生成器的种子,用于控制结果的可重复性。

返回值

返回一个元组 (X, y),其中:

  • X 是生成的特征矩阵,形状为 (n_samples, n_features)
  • y 是目标变量的标签数组,形状为 (n_samples,)

示例

1. 基本示例

生成一个包含 100 个样本、2 个特征、2 个类别的简单分类数据集:

python 复制代码
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=100, n_features=2, n_classes=2, random_state=42)

print(X.shape)  # 输出 (100, 2)
print(y.shape)  # 输出 (100,)
2. 更多控制

生成 1000 个样本,20 个特征,其中 5 个是有信息的,3 个是冗余的,类别之间有噪声:

python 复制代码
X, y = make_classification(n_samples=1000, n_features=20, n_informative=5, 
                            n_redundant=3, n_classes=3, flip_y=0.05, random_state=42)

print(X.shape)  # 输出 (1000, 20)
print(y.shape)  # 输出 (1000,)
3. 自定义类别分布

自定义类别的样本分布(例如,使类别 0 和类别 1 更为不平衡):

python 复制代码
X, y = make_classification(n_samples=1000, n_features=10, n_classes=2, 
                            weights=[0.9, 0.1], random_state=42)

print(y[:20])  # 输出样本标签,类别不平衡

应用场景

  • 测试和验证模型:生成用于分类任务的模拟数据,帮助评估不同分类算法的效果。
  • 教学和演示:用于机器学习教程和课堂教学,展示如何处理不同的分类问题。
  • 算法调试 :当你需要一个已知的、有控制特征的数据集来调试或调整机器学习模型时,make_classification 是一个很好的工具。

通过 make_classification,可以快速生成多样的人工数据集,以适应不同的机器学习实验。

相关推荐
戴西软件4 分钟前
戴西 DLM 许可授权管理系统:破解无网络环境下工业软件授权难题,助力制造企业降本增效
网络·人工智能·python·深度学习·程序人生·算法·制造
前端不太难4 分钟前
从GPU到AI工厂:智能时代的基础设施革命
人工智能·gpu算力
AI焦点9 分钟前
跨越协议鸿沟:Tool Use状态机从Anthropic到OpenAI兼容体系的适配要点
前端·人工智能
Dxy123931021612 分钟前
Python线程锁:为什么多线程会“打架“,以及怎么解决
开发语言·前端·python
Black蜡笔小新16 分钟前
制造业AI质检工作站/企业AI算力工作站DLTM助力制造业质检智能化升级
人工智能·深度学习·机器学习
提示词牛马17 分钟前
2026年人工智能(AI)现状分析报告
人工智能
watersink25 分钟前
MCP 协议与 Skill 开发架构培训文档
人工智能·架构
做萤石二次开发的哈哈26 分钟前
AI 陪护机器人硬件如何接入萤石ERTC 实现实时通话?
人工智能·音视频·实时音视频·萤石开放平台
@insist12327 分钟前
系统架构设计师-嵌入式处理器核心知识体系:从分类到架构选型全解析
架构·分类·系统架构·软考·系统架构设计师·软件水平考试
Luhui Dev31 分钟前
Anthropic 的 Claude Code 翻车经验
人工智能·luhuidev