机器学习必修课 - 使用管道 Pipeline

目标:学习使用管道(pipeline)来提高机器学习代码的效率。

1. 运行环境:Google Colab

python 复制代码
import pandas as pd
from sklearn.model_selection import train_test_split
python 复制代码
!git clone https://github.com/JeffereyWu/Housing-prices-data.git
  • 下载数据集

2. 加载房屋价格数据集,进行数据预处理,并将数据划分为训练集和验证集

python 复制代码
# Read the data
X_full = pd.read_csv('/content/Housing-prices-data/train.csv', index_col='Id')
X_test_full = pd.read_csv('/content/Housing-prices-data/test.csv', index_col='Id')

# Remove rows with missing target, separate target from predictors
X_full.dropna(axis=0, subset=['SalePrice'], inplace=True)
y = X_full.SalePrice
X_full.drop(['SalePrice'], axis=1, inplace=True)

# Break off validation set from training data
X_train_full, X_valid_full, y_train, y_valid = train_test_split(X_full, y, 
                                                                train_size=0.8, test_size=0.2,
                                                                random_state=0)
  • 使用Pandas的read_csv函数从指定路径读取训练集和测试集的CSV文件。index_col='Id'表示将数据集中的'Id'列作为索引列。
  • X_full数据中删除了带有缺失目标值的行,这是因为目标值('SalePrice')是我们要预测的值,所以必须确保每个样本都有一个目标值。然后,将目标值从X_full数据中分离出来,存储在变量y中,并从X_full中删除了目标值列,以便将其视为预测特征。

3. 选择具有相对低基数(唯一值数量较少)的分类(categorical)列

python 复制代码
# "Cardinality" means the number of unique values in a column
# Select categorical columns with relatively low cardinality (convenient but arbitrary)
categorical_cols = [cname for cname in X_train_full.columns if
                    X_train_full[cname].nunique() < 10 and 
                    X_train_full[cname].dtype == "object"]
  • 识别具有相对较少不同类别的分类列,因为这些列更适合进行独热编码,而不会引入太多的新特征。

4. 选择数值型(numerical)列

python 复制代码
# Select numerical columns
numerical_cols = [cname for cname in X_train_full.columns if 
                X_train_full[cname].dtype in ['int64', 'float64']]
  • 识别数据集中包含数值数据的列,因为这些列通常用于构建数值特征,并且需要用于训练和评估数值型机器学习模型。

5. 将数据集中的列限制在所选的分类(categorical)列和数值(numerical)列上

python 复制代码
# Keep selected columns only
my_cols = categorical_cols + numerical_cols
X_train = X_train_full[my_cols].copy()
X_valid = X_valid_full[my_cols].copy()
X_test = X_test_full[my_cols].copy()
  • 创建了一个名为my_cols的列表,其中包含了要保留的列名
  • 使用X_train_full[my_cols].copy()X_valid_full[my_cols].copy()从原始训练数据集(X_train_fullX_valid_full)中创建了新的数据集(X_trainX_valid)。这两个数据集只包含了my_cols中列名所对应的列,其他列被丢弃了。最后,同样的操作也被应用到测试数据集上,创建了包含相同列的测试数据集X_test
python 复制代码
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

6. 准备数值型数据和分类型数据以供机器学习模型使用

python 复制代码
# Preprocessing for numerical data
numerical_transformer = SimpleImputer(strategy='constant')

# Preprocessing for categorical data
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Bundle preprocessing for numerical and categorical data
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])
  • 创建了一个名为numerical_transformer的预处理器,用于处理数值型数据。在这里,使用了SimpleImputer,并设置了策略为'constant',表示将缺失的数值数据填充为一个常数值。
  • 使用SimpleImputer来填充缺失值,策略为'most_frequent',表示使用出现频率最高的值来填充缺失的分类数据。
  • 使用OneHotEncoder来执行独热编码,将分类数据转换成二进制的形式,并且设置了handle_unknown='ignore',以处理在转换过程中遇到未知的分类值。
  • 使用ColumnTransformer来组合数值型和分类型数据的预处理器,将它们一起构建成一个整体的预处理过程。

7. 建立、训练和评估一个随机森林回归模型

python 复制代码
# Define model
model = RandomForestRegressor(n_estimators=100, random_state=0)

# Bundle preprocessing and modeling code in a pipeline
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('model', model)
                     ])

# Preprocessing of training data, fit model 
clf.fit(X_train, y_train)

# Preprocessing of validation data, get predictions
preds = clf.predict(X_valid)

print('MAE:', mean_absolute_error(y_valid, preds))
  • 创建了一个名为model的机器学习模型。在这里,使用了随机森林回归模型,它是一个基于决策树的集成学习模型,包含了100颗决策树,并设置了随机种子random_state为0,以确保结果的可重复性。
  • 创建了一个名为clf的机器学习管道(Pipeline)。管道将数据预处理步骤(preprocessor)和模型训练步骤(model)捆绑在一起,确保数据首先被预处理,然后再用于模型训练。
  • MAE是一种衡量模型预测误差的指标,其值越小表示模型的性能越好。

MAE: 17861.780102739725

8. 重新进行数据预处理和定义一个机器学习模型

python 复制代码
# Preprocessing for numerical data
numerical_transformer = SimpleImputer(strategy='constant')

# Preprocessing for categorical data
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Bundle preprocessing for numerical and categorical data
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])

# Define model
model = RandomForestRegressor(n_estimators=100, random_state=0)
  • 使用SimpleImputer来填充分类型数据中的缺失值,策略改为'constant',改用常数值填充。
python 复制代码
# Bundle preprocessing and modeling code in a pipeline
my_pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                              ('model', model)
                             ])

# Preprocessing of training data, fit model 
my_pipeline.fit(X_train, y_train)

# Preprocessing of validation data, get predictions
preds = my_pipeline.predict(X_valid)

# Evaluate the model
score = mean_absolute_error(y_valid, preds)
print('MAE:', score)

MAE: 17621.3197260274

9. 再一次进行数据预处理和定义一个机器学习模型

python 复制代码
# 自定义数值型数据的预处理步骤
numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # 可以使用均值填充缺失值
])

# 自定义分类型数据的预处理步骤
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),  # 使用最频繁的值填充缺失值
    ('onehot', OneHotEncoder(handle_unknown='ignore'))  # 执行独热编码
])

# 定义自己的模型
model = RandomForestRegressor(n_estimators=200, random_state=42)  # 增加决策树数量,设置随机种子

# 将自定义的预处理和模型捆绑在一起
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('model', model)
                     ])

# 预处理训练数据,训练模型
clf.fit(X_train, y_train)

# 预处理验证数据,获取预测结果
preds = clf.predict(X_valid)

print('MAE:', mean_absolute_error(y_valid, preds))

MAE: 17468.0611130137

python 复制代码
# Preprocessing of test data, fit model
preds_test = clf.predict(X_test)
python 复制代码
# Save test predictions to file
output = pd.DataFrame({'Id': X_test.index,
                       'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)
相关推荐
塔能物联运维19 分钟前
隧道照明“智能进化”:PLC 通信 + AI 调光守护夜间通行生命线
大数据·人工智能
瑶光守护者20 分钟前
【AI经典论文解读】《Denoising Diffusion Implicit Models(去噪扩散隐式模型)》论文深度解读
人工智能
wwwzhouhui23 分钟前
2026年1月18日-Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔记
人工智能·obsidian·skills
我星期八休息29 分钟前
MySQL数据可视化实战指南
数据库·人工智能·mysql·算法·信息可视化
UR的出不克32 分钟前
使用 Python 爬取 Bilibili 弹幕数据并导出 Excel
java·python·excel
wuk99834 分钟前
基于遗传算法优化BP神经网络实现非线性函数拟合
人工智能·深度学习·神经网络
码农三叔35 分钟前
(1-3)人形机器人的发展历史、趋势与应用场景:人形机器人关键技术体系总览
人工智能·机器人
Arms2061 小时前
python时区库学习
开发语言·python·学习
白日做梦Q1 小时前
深度学习中的正则化技术全景:从Dropout到权重衰减的优化逻辑
人工智能·深度学习
清铎1 小时前
大模型训练_week3_day15_Llama概念_《穷途末路》
前端·javascript·人工智能·深度学习·自然语言处理·easyui