sklearn.pipeline的用法介绍

sklearn.pipeline可以将多个数据预处理步骤和机器学习模型组合,成一个整体,从而简化了机器学习的流程。 sklearn.pipeline类可以将多个算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流,主要带来两点好处:

  • 1.直接调用 fit 和 predict 方法来对pipeine中的所有算法模型进行训练和预测。
  • 2.可以结合gid search对参数进行选择,具体而言,Pipeline 实现了对全部步骤的流式化封装和管理,可以很方便地使参数集在新数据集(比如测试集)上被重复使用。

下面是一个简单的例子,展示了如何使用 Pipelne 对训练集和测试集进行如下操作: 先用 Siandardscaler对数据集每一列做标准化处理(是transfomer),再用PCA将原始的30维度特征压缩到2维度, 最后再用模型,LogisticRegression(是Estimator)。

调用Pipeline时,输入中元组构成的列表,每个元组第一个值为变量名,元组第二个元素是sklearn中的transfomer或Esimator,注意中间每一步是transformer,即它们必须包含fittransfomr方法,或者ft_tansform,最后一步是个Estimator,即最后一步模型要有fit方法,可以没有transform方法.

python 复制代码
from sklearn.preprocessing import Standardscalerfrom sklearn.decomposition import PCA
from sklearn.linear model import LogisticRegression
from sklearn.pipeline import Pipeline

pipe_lr= Pipeline([
	('sc',standardscaler()),
	('pca',PCA(n_components=2)),
	('clf',LogisticRegression(random state=1))
	])
pipe_lr.fit(x_train, y_train)
print('Test accuracy:%.3f'% pipe_lr.score(x test, y_test))
相关推荐
发哥来了7 分钟前
AI视频生成模型选型指南:五大核心维度对比评测
大数据·人工智能·机器学习·ai·aigc
发哥来了13 分钟前
AI驱动生产线的实际落地:一个东莞厂商的技术选型实录
大数据·人工智能·机器学习·ai·aigc
AC赳赳老秦13 分钟前
知识产权辅助:用 OpenClaw 批量生成专利交底书 / 软著申请材料,自动校验格式与内容合规性
java·人工智能·python·算法·elasticsearch·deepseek·openclaw
AI科技35 分钟前
原因大揭秘:为什么别人的编曲伴奏做得又快又好,2026年度甄选5款AI编曲软件汇总
人工智能
Mark_Aussie40 分钟前
Dify本地部署及使用
人工智能
小熊Coding1 小时前
Python2D射击冒险闯关游戏2.0版本
python·pygame
guo_xiao_xiao_1 小时前
YOLOv11高空俯视场景猫狗人目标检测数据集-1488张-bag-1_4
人工智能·yolo·目标检测
FYKJ_20101 小时前
springboot校园兼职平台--附源码02041
java·javascript·spring boot·python·eclipse·django·php
玩转单片机与嵌入式1 小时前
玩转边缘AI(TInyML):需要掌握的C++知识汇总!
开发语言·c++·人工智能
Rubin智造社1 小时前
2026年热门AI工具汇总|8大类别全覆盖,办公/创作/编程一键解锁
人工智能·ai作画·aigc·ai工具