sklearn.pipeline的用法介绍

sklearn.pipeline可以将多个数据预处理步骤和机器学习模型组合,成一个整体,从而简化了机器学习的流程。 sklearn.pipeline类可以将多个算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流,主要带来两点好处:

  • 1.直接调用 fit 和 predict 方法来对pipeine中的所有算法模型进行训练和预测。
  • 2.可以结合gid search对参数进行选择,具体而言,Pipeline 实现了对全部步骤的流式化封装和管理,可以很方便地使参数集在新数据集(比如测试集)上被重复使用。

下面是一个简单的例子,展示了如何使用 Pipelne 对训练集和测试集进行如下操作: 先用 Siandardscaler对数据集每一列做标准化处理(是transfomer),再用PCA将原始的30维度特征压缩到2维度, 最后再用模型,LogisticRegression(是Estimator)。

调用Pipeline时,输入中元组构成的列表,每个元组第一个值为变量名,元组第二个元素是sklearn中的transfomer或Esimator,注意中间每一步是transformer,即它们必须包含fittransfomr方法,或者ft_tansform,最后一步是个Estimator,即最后一步模型要有fit方法,可以没有transform方法.

python 复制代码
from sklearn.preprocessing import Standardscalerfrom sklearn.decomposition import PCA
from sklearn.linear model import LogisticRegression
from sklearn.pipeline import Pipeline

pipe_lr= Pipeline([
	('sc',standardscaler()),
	('pca',PCA(n_components=2)),
	('clf',LogisticRegression(random state=1))
	])
pipe_lr.fit(x_train, y_train)
print('Test accuracy:%.3f'% pipe_lr.score(x test, y_test))
相关推荐
召田最帅boy几秒前
博客文章AI对话机器人整合实践
人工智能·机器人
草莓熊Lotso1 分钟前
MySQL CRUD 核心指南:查询、插入、更新、删除全实战
android·开发语言·数据库·c++·人工智能·mysql
机器学习之心1 分钟前
利用强化学习动态调整LSTM与GRU集成权重:完整Python实现
python·gru·lstm
小锋java12342 分钟前
分享一套【优质Python源码】基于Python的Django个人理财(个人记账)管理系统
python
xjt_09013 分钟前
用 LiteLLM 打通 Codex CLI 与 Claude Code(有key即可实现编程自由)
后端·python·flask
软件资深者3 分钟前
【保姆级】OpenClaw 进阶全攻略:高级玩法 + 飞书 + Skills + 安全防护,1 小时变身 “养虾高手”!
人工智能·安全·飞书·数字员工·openclaw·龙虾·高级玩法
唐山韩雅电气设备有限公司4 分钟前
EOCR电动机保护器靠谱的厂家
python·单片机·嵌入式硬件
安科瑞-小李7 分钟前
公共建筑能耗监测系统的设计方案与节能效益分析
人工智能·数据采集·智慧建筑·公共建筑·能耗可视化
AsDuang8 分钟前
Python 3.12 MagicMethods - 56 - __and__
开发语言·python
我材不敲代码9 分钟前
OpenCV 实战:从可乐标志识别到银行卡、身份证号识别(模板匹配 + 轮廓检测)
人工智能·opencv·计算机视觉