Day 27 pipeline 管道

@浙大疏锦行

Pipeline（管道）是 sklearn 中核心的工作流自动化工具，核心目标是将「数据预处理→特征工程→模型训练→评估」等多个步骤串联成一个可复用、可维护的流程，避免数据泄露、简化代码逻辑、提升开发效率。

一、为什么需要 Pipeline？

没有 Pipeline 时，机器学习流程存在以下痛点：

数据泄露风险：手动将数据分为训练集 / 测试集后，若用全量数据做标准化 / 降维，会导致测试集信息提前泄露给训练集（如用全量数据的均值 / 方差标准化，测试集参与了参数计算）；
代码冗余：重复编写「训练集预处理→测试集预处理→模型训练→预测」的重复逻辑，且多个模型对比时需重复修改；
流程不清晰：预处理、特征工程、建模步骤分散，难以追溯和复现（如忘记某一步的标准化参数）；
调参繁琐：若需同时优化预处理参数（如 PCA 维度）和模型参数（如随机森林树数），手动组合效率极低。

Pipeline 的核心价值：将多步骤封装为 "黑盒"，仅需调用 fit()/predict()，自动完成训练集→测试集的流程联动，且支持网格搜索 / 随机搜索调参。

二、Pipeline 核心原理

1. 核心逻辑

Pipeline 由一系列「转换器（Transformer）」和「估计器（Estimator）」组成：

转换器（Transformer） ：有 fit() 和 transform() 方法，用于数据预处理 / 特征工程（如 StandardScaler、PCA、RFE）；
估计器（Estimator） ：有 fit() 和 predict() 方法，用于模型训练（如 LinearRegression、RandomForestClassifier）；
执行顺序：训练时按管道顺序依次执行「转换器 fit+transform」，最后执行「估计器 fit」；预测时按管道顺序依次执行「转换器 transform」（复用训练集的 fit 参数），最后执行「估计器 predict」。

2. 数据泄露防护机制

Pipeline 仅用 训练集 拟合所有转换器和估计器，测试集仅参与 transform()（复用训练集的拟合参数，如标准化的均值 / 方差、PCA 的主成分），从根本上避免数据泄露。

3. 管道结构示意图

复制代码

# 回归任务 Pipeline 示例
训练集 X_train → [StandardScaler() → fit+transform] → [PCA() → fit+transform] → [LinearRegression() → fit]
测试集 X_test → [StandardScaler() → transform（复用训练集均值）] → [PCA() → transform（复用训练集主成分）] → [LinearRegression() → predict]

三、Pipeline 基础用法

1. 核心 API 与参数

复制代码

from sklearn.pipeline import Pipeline

# 初始化管道：传入列表，每个元素是 ("步骤名称", 转换器/估计器)
pipeline = Pipeline(steps=[
    ("step1", 转换器1),  # 如 StandardScaler()
    ("step2", 转换器2),  # 如 PCA()
    ("model", 估计器)    # 如 RandomForestRegressor()
])

# 训练管道（自动执行所有步骤的 fit+transform）
pipeline.fit(X_train, y_train)

# 预测（自动执行所有转换器的 transform + 模型 predict）
y_pred = pipeline.predict(X_test)

# 评估
from sklearn.metrics import r2_score
print(f"R² Score: {r2_score(y_test, y_pred):.4f}")

2. 实战 1：回归任务 Pipeline（预处理 + 降维 + 建模）

以 "加州房价回归" 为例，构建「标准化→PCA 降维→随机森林回归」的管道：

复制代码

import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, rmse_score

# 1. 加载数据并划分训练集/测试集
data = fetch_california_housing()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. 构建 Pipeline
pipeline = Pipeline(steps=[
    ("scaler", StandardScaler()),  # 步骤1：标准化（转换器）
    ("pca", PCA(n_components=6, random_state=42)),  # 步骤2：PCA降维（转换器）
    ("rf", RandomForestRegressor(n_estimators=100, random_state=42))  # 步骤3：随机森林回归（估计器）
])

# 3. 训练管道（自动完成：scaler.fit+transform → pca.fit+transform → rf.fit）
pipeline.fit(X_train, y_train)

# 4. 预测（自动完成：scaler.transform → pca.transform → rf.predict）
y_pred = pipeline.predict(X_test)

# 5. 评估
print(f"回归任务 Pipeline 效果：")
print(f"R² Score: {r2_score(y_test, y_pred):.4f}")
print(f"RMSE: {rmse_score(y_test, y_pred):.4f}")

3. 实战 2：分类任务 Pipeline（预处理 + 特征选择 + 建模）

以 "鸢尾花分类" 为例，构建「标准化→RFE 特征选择→逻辑回归」的管道：

复制代码

from sklearn.datasets import load_iris
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score

# 1. 加载数据并划分
data = load_iris()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. 构建 Pipeline
pipeline = Pipeline(steps=[
    ("scaler", StandardScaler()),  # 步骤1：标准化
    ("rfe", RFE(estimator=LogisticRegression(), n_features_to_keep=2)),  # 步骤2：RFE特征选择（保留2个特征）
    ("lr", LogisticRegression(max_iter=1000, random_state=42))  # 步骤3：逻辑回归分类
])

# 3. 训练与预测
pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)

# 4. 评估
print(f"分类任务 Pipeline 效果：")
print(f"准确率: {accuracy_score(y_test, y_pred):.4f}")
print(f"F1分数: {f1_score(y_test, y_pred, average='macro'):.4f}")

4. 访问管道中的步骤与参数

可通过 named_steps 访问管道中的单个步骤，查看或修改参数：

复制代码

# 1. 访问步骤（如查看PCA降维后的方差占比）
print("PCA累计方差占比：", pipeline.named_steps["pca"].explained_variance_ratio_.sum())

# 2. 查看随机森林的参数
print("随机森林树数：", pipeline.named_steps["rf"].n_estimators)

# 3. 修改参数并重新训练
pipeline.named_steps["rf"].n_estimators = 200
pipeline.fit(X_train, y_train)  # 重新训练整个管道
y_pred_updated = pipeline.predict(X_test)
print(f"更新参数后 R² Score: {r2_score(y_test, y_pred_updated):.4f}")

四、Pipeline 高级用法：结合网格搜索调参

Pipeline 最强大的功能是支持对 "预处理参数 + 模型参数" 进行联合网格搜索，避免手动组合参数的繁琐。

1. 核心逻辑

通过 GridSearchCV 或 RandomizedSearchCV，为管道中的每个步骤指定待搜索的参数，自动寻找最优参数组合。

2. 实战：回归任务 Pipeline + 网格搜索

以 "标准化→PCA→随机森林" 为例，同时优化 PCA 维度和随机森林参数：

复制代码

from sklearn.model_selection import GridSearchCV

# 1. 定义管道（参数留空，后续通过网格搜索指定）
pipeline = Pipeline(steps=[
    ("scaler", StandardScaler()),
    ("pca", PCA(random_state=42)),
    ("rf", RandomForestRegressor(random_state=42))
])

# 2. 定义参数网格（格式：步骤名称__参数名称）
param_grid = {
    "pca__n_components": [4, 6, 8],  # PCA的维度（步骤名称pca + 参数n_components）
    "rf__n_estimators": [100, 200],  # 随机森林的树数
    "rf__max_depth": [None, 10, 20]  # 随机森林的最大深度
}

# 3. 网格搜索（cv=5折交叉验证）
grid_search = GridSearchCV(
    estimator=pipeline,
    param_grid=param_grid,
    cv=5,
    scoring="r2",  # 回归任务评分指标
    n_jobs=-1,  # 并行计算（利用所有CPU核心）
    verbose=1  # 输出搜索过程
)

# 4. 执行搜索（自动训练所有参数组合）
grid_search.fit(X_train, y_train)

# 5. 查看最优结果
print("最优参数组合：", grid_search.best_params_)
print("最优交叉验证 R²：", grid_search.best_score_)

# 6. 用最优管道预测
best_pipeline = grid_search.best_estimator_
y_pred_best = best_pipeline.predict(X_test)
print(f"最优管道测试集 R²：{r2_score(y_test, y_pred_best):.4f}")

3. 输出解释

最优参数组合示例：{'pca__n_components': 6, 'rf__max_depth': 20, 'rf__n_estimators': 200}；
网格搜索会自动验证所有参数组合（3 个 PCA 维度 × 2 个树数 × 3 个最大深度 = 18 种组合），选择交叉验证分数最高的组合；
避免了 "先手动调 PCA 维度，再调模型参数" 的重复工作，且全程无数据泄露。

五、Pipeline 常见场景与扩展

1. 处理类别特征与数值特征（ColumnTransformer 组合）

实际数据中常包含类别特征（如性别、职业）和数值特征（如年龄、收入），需分别预处理，可结合 ColumnTransformer 实现：

复制代码

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

# 假设数据有4个特征：前2个数值特征，后2个类别特征
numeric_features = [0, 1]  # 数值特征列索引
categorical_features = [2, 3]  # 类别特征列索引

# 定义列转换器：对不同类型特征应用不同预处理
preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), numeric_features),  # 数值特征→标准化
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features)  # 类别特征→独热编码
    ])

# 构建管道（预处理→降维→建模）
pipeline = Pipeline(steps=[
    ("preprocessor", preprocessor),
    ("pca", PCA(n_components=5)),
    ("rf", RandomForestRegressor())
])

# 训练与预测（自动处理数值+类别特征）
pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)

2. 异常值处理与 Pipeline 结合

将异常值处理（如 IQR 筛选、Z-score 去除）作为管道的第一步，确保流程自动化：

复制代码

from sklearn.preprocessing import FunctionTransformer

# 定义异常值处理函数（Z-score法去除数值特征异常值）
def remove_outliers(X):
    X_copy = X.copy()
    for col in range(X_copy.shape[1]):
        mean = X_copy[:, col].mean()
        std = X_copy[:, col].std()
        mask = np.abs((X_copy[:, col] - mean) / std) <= 3  # Z-score≤3
        X_copy = X_copy[mask]
    return X_copy

# 转换为转换器（FunctionTransformer将普通函数转为Transformer）
outlier_remover = FunctionTransformer(remove_outliers)

# 构建管道（异常值处理→标准化→建模）
pipeline = Pipeline(steps=[
    ("remove_outliers", outlier_remover),
    ("scaler", StandardScaler()),
    ("lr", LinearRegression())
])

3. 多个模型 Pipeline 对比

通过循环创建多个管道，快速对比不同模型的性能：

复制代码

from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor

# 定义要对比的模型
models = [
    ("Linear Regression", LinearRegression()),
    ("Decision Tree", DecisionTreeRegressor(random_state=42)),
    ("Random Forest", RandomForestRegressor(random_state=42))
]

# 循环创建管道并评估
results = []
for name, model in models:
    pipeline = Pipeline(steps=[
        ("scaler", StandardScaler()),
        ("pca", PCA(n_components=6)),
        ("model", model)
    ])
    pipeline.fit(X_train, y_train)
    y_pred = pipeline.predict(X_test)
    r2 = r2_score(y_test, y_pred)
    results.append({"模型": name, "R² Score": r2})

# 展示结果
results_df = pd.DataFrame(results).sort_values("R² Score", ascending=False)
print("不同模型 Pipeline 对比：")
print(results_df.round(4))

六、Pipeline 避坑指南

步骤顺序不能乱：必须遵循「数据预处理→特征工程→模型训练」的顺序（如先标准化，再 PCA，最后建模）；
最后一步必须是估计器 ：管道的最后一个步骤必须是有 predict() 方法的估计器（如模型），前面的步骤必须是转换器；
参数命名格式 ：网格搜索时，参数名必须是「步骤名称__参数名称」（双下划线连接，如 pca__n_components）；
处理缺失值 ：若数据有缺失值，需在管道中添加缺失值处理步骤（如 SimpleImputer(strategy="mean")），否则会报错；
避免过度复杂：管道步骤不宜过多（建议≤5 步），否则会增加调试难度和计算成本。

七、转化器和估计器

1. 转换器（Transformer）：数据的 "加工工具"

核心定位 ：用于数据预处理、特征工程，负责将原始数据转换为模型可接受的格式（如标准化、降维、编码、特征选择）。
本质：输入数据 → 加工处理 → 输出新数据（特征矩阵 X 的形态 / 数值变化，不涉及目标变量 y 的预测）。
必须具备的接口（标准化方法）：
- fit(X, y=None)：学习数据的统计规律（如标准化的均值 / 方差、PCA 的主成分），仅用训练集调用，不改变原始数据；
- transform(X)：应用学到的规律转换数据（如用 fit 得到的均值标准化 X），训练集和测试集都需调用（测试集仅 transform，复用训练集的 fit 结果，避免数据泄露）；
- 可选接口 fit_transform(X, y=None)：等价于 fit(X) + transform(X)，是训练集预处理的快捷方式（更高效）。
常见示例：
- 预处理：StandardScaler（标准化）、MinMaxScaler（归一化）、SimpleImputer（缺失值填充）；
- 特征工程：PCA（降维）、OneHotEncoder（类别特征编码）、RFE（特征选择）、FunctionTransformer（自定义函数转换）；
- 核心特点：只处理 X，不预测 y，输出的是 "加工后的特征"。

2. 估计器（Estimator）：建模与预测的 "核心模型"

核心定位 ：用于模型训练与预测，是机器学习任务的核心（如分类、回归、聚类），负责从特征中学习规律并输出预测结果。
本质：输入特征 X（+ 目标变量 y）→ 训练模型 → 输出预测结果（对新数据的 y_pred）。
必须具备的接口（标准化方法）：
- fit(X, y)：用训练数据训练模型（学习特征 X 与目标 y 的映射关系，如线性回归的系数、决策树的分裂规则）；
- predict(X)：用训练好的模型预测新数据（输入未见过的 X，输出预测的 y_pred）；
- 可选接口：
  - predict_proba(X)（分类任务）：输出各类别的概率（如逻辑回归输出正例概率）；
  - score(X, y)：直接计算模型在数据上的评估指标（如分类准确率、回归 R²）。
常见示例：
- 回归模型：LinearRegression（线性回归）、RandomForestRegressor（随机森林回归）；
- 分类模型：LogisticRegression（逻辑回归）、SVC（支持向量机）、KNeighborsClassifier（K 近邻）；
- 聚类模型：KMeans（无监督，fit 时无需 y）；
- 核心特点：必须学习 X 与 y 的关系（无监督模型除外），输出的是 "预测结果" 而非特征。