机器学习系列 16:使用 scikit-learn 的 Pipeline

在机器学习项目中,我们经常需要进行大量的数据预处理步骤,最后用处理干净的数据集来拟合机器学习算法得到一个合适的机器学习模型。

scikit-learn 提供了一个强大的 Pipeline 类来帮助我们将所有的数据预处理步骤和训练模型的步骤串起来。就像流水线一样,前一个步骤处理完的结果输入到下一个步骤,依次处理。

这里我们将使用 UCI 提供的威斯康星洲乳腺癌数据集,下载地址如下:

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

这个数据集一共包含 569 个样本,每个样本有 30 个实数值特征,数据集的前 2 列分别是标识病人的 ID 和肿瘤诊断结果(M 表示恶性,B 表示良性)。让我们首先加载数据集,然后抽取出特征 X 和类别 y,我们还用了 scikit-learn 提供的 LabelEncoder 将字符串表示的样本类别编码成数字表示。

现在我们已经将 M 编码成 1,B 编码成 0。

然后我们将数据集拆分成训练集和测试集,其中训练集占 80%,测试集占 20%。

许多机器学习算法要求输入的特征的取值范围都在同一个范围内,由于这里的数据集中的特征是以不同的度量标准测到的,所以我们需要标准化特征。然后,假设我们还要将这 30 维的高维数据通过 PCA 压缩到 2 维空间。最后我们用数据集拟合逻辑回归算法得到一个二分类模型。

我们可以通过 make_pipeline 函数将中上述步骤中涉及的标准化、PCA 和训练模型串到一个管道(pipeline)中。

make_pipeline 函数可以接收任意数量的 scikit-learn transformer(包含 fit 和 trasnform 方法的对象),最后跟一个 scikit-learn estimator(实现了 fit 和 predict 方法的对象)。

在前面的例子中,StandardScaler() 和 PCA() 就是 transformer,LogisticRegression 就是 estimator。

在我调用 pipe_lr 的 fit 方法时,Pipeline 会先调用 transformer 的 fit_transform 方法(fit_transform 方法其实先调用 fit 再调用 transform),然后调用 estimator 的 fit 方法来训练模型。

如果我们在 Pipeline 的最后加了一个 estimator,那么我们可以通过调用 pipe_lr 的 predict 方法来对新数据进行同样的预处理,然后对预处理后的新数据进行预测。

通过上图我们可以看到 Pipeline 将数据预处理和训练模型这些步骤串联起来,使得我们从头到尾就像在使用一个对象一样。

相关推荐
小丶舟6 小时前
微软Build 2026:自研MAI模型+Project Polaris终结OpenAI依赖
人工智能·microsoft·开源
txg6666 小时前
机器人领域简报(2026年5月29日—6月4日)
人工智能·机器人·自动化
搞科研的小刘选手6 小时前
【高届数计算机方向会议】第七届计算机视觉与数据挖掘国际学术会议(ICCVDM 2026)
人工智能·算法·计算机·数据挖掘·软件工程·视觉·信息
jinglong.zha6 小时前
AI·PPT设计变现实战训练营:从0到1学设计+派单交付
人工智能·powerpoint·ai写作·ppt
SpaceAIGlobal6 小时前
6款AI PPT工具深度实测:数据保真与模板适配能力对比
人工智能·powerpoint
天一生水water6 小时前
agent教程S02 工具路由分发
人工智能·智能体
wangqiaowq6 小时前
“Alpaca JSON” 通常指的是大语言模型(LLM)微调领域中的一种指令微调数据集格式。
人工智能
garmin Chen6 小时前
Prompt工程入门:让AI按你的要求工作(1)--prompt概述与设计
java·人工智能·python·junit·prompt·agent
流放深圳6 小时前
抓住 AI 人工智能的风口之第 5 章 —— 使用视觉大模型(Vision-Language Model)支持图片识别,完善电商智能客服项目
人工智能·视觉大模型·图片识别·springai·vision-language
imDwAaY6 小时前
从感知机到 Attention:我用 PyTorch 打穿 CS188 机器学习终章 CS188 Proj5 学习笔记
人工智能·pytorch·笔记·python·学习·机器学习