机器学习系列 16:使用 scikit-learn 的 Pipeline

在机器学习项目中,我们经常需要进行大量的数据预处理步骤,最后用处理干净的数据集来拟合机器学习算法得到一个合适的机器学习模型。

scikit-learn 提供了一个强大的 Pipeline 类来帮助我们将所有的数据预处理步骤和训练模型的步骤串起来。就像流水线一样,前一个步骤处理完的结果输入到下一个步骤,依次处理。

这里我们将使用 UCI 提供的威斯康星洲乳腺癌数据集,下载地址如下:

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

这个数据集一共包含 569 个样本,每个样本有 30 个实数值特征,数据集的前 2 列分别是标识病人的 ID 和肿瘤诊断结果(M 表示恶性,B 表示良性)。让我们首先加载数据集,然后抽取出特征 X 和类别 y,我们还用了 scikit-learn 提供的 LabelEncoder 将字符串表示的样本类别编码成数字表示。

现在我们已经将 M 编码成 1,B 编码成 0。

然后我们将数据集拆分成训练集和测试集,其中训练集占 80%,测试集占 20%。

许多机器学习算法要求输入的特征的取值范围都在同一个范围内,由于这里的数据集中的特征是以不同的度量标准测到的,所以我们需要标准化特征。然后,假设我们还要将这 30 维的高维数据通过 PCA 压缩到 2 维空间。最后我们用数据集拟合逻辑回归算法得到一个二分类模型。

我们可以通过 make_pipeline 函数将中上述步骤中涉及的标准化、PCA 和训练模型串到一个管道(pipeline)中。

make_pipeline 函数可以接收任意数量的 scikit-learn transformer(包含 fit 和 trasnform 方法的对象),最后跟一个 scikit-learn estimator(实现了 fit 和 predict 方法的对象)。

在前面的例子中,StandardScaler() 和 PCA() 就是 transformer,LogisticRegression 就是 estimator。

在我调用 pipe_lr 的 fit 方法时,Pipeline 会先调用 transformer 的 fit_transform 方法(fit_transform 方法其实先调用 fit 再调用 transform),然后调用 estimator 的 fit 方法来训练模型。

如果我们在 Pipeline 的最后加了一个 estimator,那么我们可以通过调用 pipe_lr 的 predict 方法来对新数据进行同样的预处理,然后对预处理后的新数据进行预测。

通过上图我们可以看到 Pipeline 将数据预处理和训练模型这些步骤串联起来,使得我们从头到尾就像在使用一个对象一样。

相关推荐
太子釢16 分钟前
Claude Code 主循环机制详解
人工智能
lyy-独立开发者17 分钟前
主动推理-信息消费策略
人工智能
GuWenyue24 分钟前
提示词彻底过时?一套上下文工程方案,3步让LLM落地生产,代码直接复用
前端·javascript·人工智能
秦歌66625 分钟前
agno-1-入门和智能体构建
人工智能
Kel26 分钟前
Pregel 为什么会成为LangGraph编排的心脏
人工智能·设计模式·架构
zhangfeng113338 分钟前
aclnn 完整含义解析 华为昇腾计算库-神经网络算子API(算子开发) acl / aclnn / aclrt 三者区分
人工智能·深度学习·神经网络
天风之翼40 分钟前
RAG 系统深度实战:从朴素检索到 Agentic RAG 的完整演进
人工智能
RobinDevNotes1 小时前
Headroom:给 AI Agent 上下文做压缩,省下 60%-95% 的 Token 账单
人工智能
2603_955279701 小时前
我的AI辅助开发工具链2026版:构建下一代智能编码工作流
人工智能
这张生成的图像能检测吗1 小时前
(论文速读)REF-DDPM:一种新的基于DDPM的不平衡滚动轴承故障诊断数据增强方法
人工智能·计算机视觉·故障诊断·扩散模型