sklearn.pipeline的用法介绍

sklearn.pipeline可以将多个数据预处理步骤和机器学习模型组合,成一个整体,从而简化了机器学习的流程。 sklearn.pipeline类可以将多个算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流,主要带来两点好处:

  • 1.直接调用 fit 和 predict 方法来对pipeine中的所有算法模型进行训练和预测。
  • 2.可以结合gid search对参数进行选择,具体而言,Pipeline 实现了对全部步骤的流式化封装和管理,可以很方便地使参数集在新数据集(比如测试集)上被重复使用。

下面是一个简单的例子,展示了如何使用 Pipelne 对训练集和测试集进行如下操作: 先用 Siandardscaler对数据集每一列做标准化处理(是transfomer),再用PCA将原始的30维度特征压缩到2维度, 最后再用模型,LogisticRegression(是Estimator)。

调用Pipeline时,输入中元组构成的列表,每个元组第一个值为变量名,元组第二个元素是sklearn中的transfomer或Esimator,注意中间每一步是transformer,即它们必须包含fittransfomr方法,或者ft_tansform,最后一步是个Estimator,即最后一步模型要有fit方法,可以没有transform方法.

python 复制代码
from sklearn.preprocessing import Standardscalerfrom sklearn.decomposition import PCA
from sklearn.linear model import LogisticRegression
from sklearn.pipeline import Pipeline

pipe_lr= Pipeline([
	('sc',standardscaler()),
	('pca',PCA(n_components=2)),
	('clf',LogisticRegression(random state=1))
	])
pipe_lr.fit(x_train, y_train)
print('Test accuracy:%.3f'% pipe_lr.score(x test, y_test))
相关推荐
HackTwoHub6 分钟前
AI大模型网关存在SQL注入、附 POC 复现、影响版本LiteLLM 1.81.16~1.83.7(CVE-2026-42208)
数据库·人工智能·sql·网络安全·系统安全·网络攻击模型·安全架构
段一凡-华北理工大学14 分钟前
【高炉炼铁领域炉温监测、预警、调控智能体设计与应用】~系列文章08:多模态数据融合:让数据更聪明
人工智能·python·高炉炼铁·ai赋能·工业智能体·高炉炉温
万粉变现经纪人18 分钟前
如何解决 pip install llama-cpp-python 报错 未安装 CMake/Ninja 或 CPU 不支持 AVX 问题
开发语言·python·开源·aigc·pip·ai写作·llama
其实防守也摸鱼34 分钟前
CTF密码学综合教学指南--第五章
开发语言·网络·笔记·python·安全·网络安全·密码学
网络工程小王1 小时前
【LangChain 大模型6大调用指南】调用大模型篇
linux·运维·服务器·人工智能·学习
HIT_Weston1 小时前
63、【Agent】【OpenCode】用户对话提示词(示例)
人工智能·agent·opencode
CV-杨帆1 小时前
Phi-4-mini-flash-reasoning 部署安装与推理测试完整记录
人工智能
MediaTea1 小时前
AI 术语通俗词典:C4.5 算法
人工智能·算法
callJJ2 小时前
Spring Data Redis 两种编程模型详解:同步 vs 响应式
java·spring boot·redis·python·spring
小郑加油2 小时前
python学习Day12:pandas安装与实际运用
开发语言·python·学习