Day26 Pipeline（管道）

**Pipeline（管道）**它本质是一种「流程化处理模式」，就像工厂里的生产线：原材料（原始数据）经过多道工序（处理步骤），最终变成成品（目标结果）。在编程中，尤其是数据处理、机器学习领域，Pipeline 能帮我们把多个独立的步骤串联起来，让代码更简洁、逻辑更清晰，还能避免常见错误。

上一步的输出 = 下一步的输入，所有步骤按顺序执行，形成一条 "管道"。如果中间某一步出错（比如鸡蛋煎糊了），整个流程会中断，直到问题解决。

编程中的 Pipeline 是什么？

在编程（尤其是 Python 的数据处理、机器学习库，如 scikit-learn、pandas）中，Pipeline 是一种「封装工具」，它把多个「数据处理步骤」或「模型训练步骤」打包成一个整体，让你可以像调用一个函数一样执行整个流程。

核心作用：

简化代码：不用手动写多个步骤的嵌套调用，一行代码就能执行整个流程。
避免数据泄露：在机器学习中，避免测试集的数据提前被训练集的处理步骤 "污染"（比如标准化时用了测试集的均值 / 方差）。
便于复用和调试：把流程封装后，可在不同数据集上重复使用，且能快速定位哪个步骤出了问题。
支持自动化调参：可以对整个 Pipeline 中的所有步骤一起调参，不用逐个步骤调整。

假设你要做一个「房价预测」模型，需要经过 3 个步骤：

填充缺失值（用均值填充）
对数值特征标准化（让数据符合正态分布）
用线性回归模型预测房价

如果不用 Pipeline，代码可能是这样的（繁琐且易出错)

复制代码

import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 1. 加载数据
data = pd.read_csv("house_price.csv")
X = data[["面积", "房间数", "楼层"]]  # 特征
y = data["房价"]  # 目标值

# 2. 分割训练集/测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 3. 手动执行步骤1：填充缺失值
imputer = SimpleImputer(strategy="mean")
X_train_imputed = imputer.fit_transform(X_train)  # 训练集拟合并转换
X_test_imputed = imputer.transform(X_test)  # 测试集只转换（避免数据泄露）

# 4. 手动执行步骤2：标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_imputed)
X_test_scaled = scaler.transform(X_test_imputed)

# 5. 手动执行步骤3：训练模型
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# 6. 预测
y_pred = model.predict(X_test_scaled)

用 Pipeline 简化后，代码是这样的：

复制代码

import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 1. 加载数据
data = pd.read_csv("house_price.csv")
X = data[["面积", "房间数", "楼层"]]
y = data["房价"]

# 2. 分割训练集/测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 3. 定义 Pipeline：按顺序封装步骤（名称随便起，步骤是关键）
pipeline = Pipeline([
    ("fill_missing", SimpleImputer(strategy="mean")),  # 步骤1：填充缺失值
    ("standardize", StandardScaler()),  # 步骤2：标准化
    ("regressor", LinearRegression())  # 步骤3：训练模型
])

# 4. 执行整个流程（拟合+预测）
pipeline.fit(X_train, y_train)  # 自动按顺序执行步骤1-3（仅训练集拟合）
y_pred = pipeline.predict(X_test)  # 自动对测试集执行步骤1-2，再预测（避免数据泄露）

对比后发现：

用 Pipeline 少了很多中间变量（X_train_imputed、X_train_scaled 等），代码更简洁。
不用担心测试集被 "污染"：pipeline.fit(X_train, y_train) 只在训练集上拟合所有步骤，predict(X_test) 时自动用训练集的参数处理测试集。
如果要修改步骤（比如把 "填充缺失值" 改成 "填充中位数"），只需修改 Pipeline 中的对应步骤，不用改其他代码。@浙大疏锦行