机器学习DAY4续：梯度提升与 XGBoost （完）

本文将通过 XGBoost 框架来实现回归、分类和排序任务，帮助理解和掌握使用 XGBoost 解决实际问题的能力。我们将从基本的数据处理开始，逐步深入到模型训练、评估以及预测。最后，将模型进行保存和加载训练好的模型。

知识点

回归任务
分类任务
排序任务
模型保存
模型加载

决策树回顾

回归前面的实验，我们已经学习了决策树，决策树是一种常见的监督学习模型，可以用于分类和回归任务。它通过将数据集分割为不同的分支，创建一棵树状结构来做出决策。每个分支代表了一个特征条件，最终叶子节点代表预测的结果。

梯度提升

梯度提升（Gradient Boosting）是一种集成机器学习方法，它通过组合多个性能一般的模型来增强整体的预测能力。这种方法的关键在于，每一个模型都尝试去纠正前一个模型的预测失误。具体操作时，梯度提升会利用损失函数的梯度信息来指导后续模型的调整方向，目的是逐步降低整体的预测误差。

工作原理：

初始模型 ：
- 在梯度提升中，初始模型通常是一个非常简单的模型，如一个决策树。这个初始模型也称为基学习器或弱学习器。
- 初始模型不需要很复杂，因为它只是整个提升过程的起点。它的目的是提供一个基本的预测，即使这个预测并不十分准确。
残差拟合 ：
- 一旦有了初始模型的预测结果，算法接下来会计算每个训练样本的残差，即真实值与预测值之间的差异。
- 这些残差反映了初始模型的不足之处，是算法接下来需要集中改进的部分。
迭代更新 ：
- 在每一轮迭代中，新的弱学习器都会被训练来拟合上一轮产生的残差。
- 通过这种方式，每一轮都专注于纠正前一轮模型未能解决的错误。因此，每一轮的学习器都在尝试解决一个更难的问题，即减少残差。
- 每个新的弱学习器通常是一个简单的模型，比如一个浅层决策树。
模型合并 ：
- 每个弱学习器产生的预测结果不是独立使用的，而是与之前的模型合并，通常是通过加权求和的方式。
- 合并后的模型在每次迭代后都会更新，整合新学习器的预测结果，以此提高整体预测的精度。
- 通过多次迭代，模型逐渐积累更多关于数据的知识，并不断减小训练误差。

这个过程不断重复，直到达到预定的迭代次数或模型的改进不再显著。在实际应用中，梯度提升算法可以高度自定义，包括如何生成新的学习器、如何合并它们的预测结果以及何时停止迭代等。这使得梯度提升在各种机器学习问题中都是一个非常强大和灵活的工具。

梯度提升决策树

梯度提升决策树（GBDT, Gradient Boosting Decision Trees）是将梯度提升与决策树结合的算法。在 GBDT 中，多个决策树被逐步训练，每棵树都试图拟合上一次的预测误差。GBDT 能够有效处理回归和分类任务，并且在实践中表现非常优异。

GBDT 的关键特点：

每个树的目标是减少前一棵树的预测误差。
通过梯度下降的方式来最小化损失函数。
适用于各种类型的损失函数（如均方误差、对数损失等）。

GBDT 的主要缺点在于训练速度较慢，尤其在处理大规模数据时，由于模型的逐步训练和弱模型的迭代更新，这种方法计算复杂度较高。

分布式梯度提升

随着数据规模的增加，传统的 GBDT 在大规模数据集上的训练效率变得低下。为了提高效率，研究人员提出了分布式梯度提升。这种方法可以将数据分片，分配到多个计算节点上并行计算，从而加速模型的训练。分布式计算利用多核处理器和集群资源，使得模型能够在更大的数据集上进行训练，并且缩短训练时间。

然而，传统的分布式梯度提升在工程实现上仍然面临许多挑战，如如何合理分配计算任务、管理内存资源等。

XGBoost

XGBoost（eXtreme Gradient Boosting）是对传统 GBDT 的极大改进和优化。XGBoost 在保持 GBDT 强大性能的基础上，针对模型训练进行了多种优化，特别是在处理大规模数据集时表现出色。

通过该库，我们可以执行回归、分类、排名以及用户自定义的预测任务。

XGBoost 库的使用非常简单，通过以下命令直接导入

复制代码

import xgboost as xgb

在本文中，我们将学习如何使用 XGBoost 库来处理一个回归问题。回归任务的目标是预测一个连续的目标值，这里我们将使用糖尿病数据集，这是一个常用的机器学习数据集，用于预测一年后糖尿病患者的病情进展情况。

数据准备

我们先从 sklearn.datasets 导入 load_diabetes 函数，它能帮助我们加载糖尿病数据集。

复制代码

# 导入数据集
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split

diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
# 数据维度
print("Data Shape:", X.shape, y.shape)

数据集包括 442 个病人的 10 个生理特征（年龄、性别、体重指数、血压等）和一年后的病情进展情况，这将作为我们的目标变量。

通过打印数据的维度和目标变量的一些基本统计特征：最小值、最大值、均值和标准差，我们可以更好地了解数据的分布和范围。

复制代码

import numpy as np


# 变量的统计特征
print("Min:", np.min(diabetes.target))
print("Max:", np.max(diabetes.target))
print("Mean:", np.mean(diabetes.target))
print("Standard Deviation:", np.std(diabetes.target))

数据预处理

数据预处理是机器学习中的一个重要步骤。我们首先将数据拆分为训练集和测试集，使用 80% 的数据进行训练，剩下 20% 的数据用于测试。这样可以帮助我们评估模型在未见过的数据上的表现。

复制代码

# 将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

虽然 XGBoost 对数据缩放的要求不像线性模型那样严格，但进行标准化处理------减去均值并除以标准差，仍然有助于优化算法的性能，特别是在涉及到梯度和步长选择的算法中。

复制代码

from sklearn.preprocessing import StandardScaler

# 标准化数据
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

模型训练

在模型训练步骤中，我们首先将数据转换为 XGBoost 的 DMatrix 格式，这是一种专为 XGBoost 优化的数据结构，可以使得模型运行更快。

复制代码

# 将数据转换为 DMatrix 格式，这是 XGBoost 的高效数据格式
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

接下来，我们设定模型的参数，在这里，我们使用的是平方误差损失函数，这是回归任务中常用的损失函数。

复制代码

# 设置参数
params = {
    'objective': 'reg:squarederror',  # 回归任务的目标函数
    'max_depth': 4,                   # 树的最大深度
    'eta': 0.1,                       # 学习率
    'subsample': 0.8,                 # 随机采样比例
    'colsample_bytree': 0.8           # 每棵树使用特征的比例
}

最后，使用 train 方法进行训练 100 轮。

复制代码

# 训练模型
model = xgb.train(params, dtrain, num_boost_round=100)

模型评估

在模型评估阶段，我们将使用 MSE（Mean Squared Error，均方误差）来衡量模型的性能。MSE 测量的是预测值和实际值之间的差异的平方的平均值，是评估回归模型常用的指标。

复制代码

from sklearn.metrics import mean_squared_error

# 在测试集上进行预测
y_pred = model.predict(dtest)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse:.4f}")

均方误差的值为 3061.4492，3061.4492≈55.333061.4492≈55.33，小于前面展示的样本的标签的标准差，说明模型有学习到特征，不过这个误差并没有太小，说明算法还有进一步的优化空间，感兴趣的同学可以尝试使用特征工程与调参的技术，使得模型的性能进一步提升。

预测新数据

最后，我们将展示如何使用训练好的模型来进行新数据的预测。这里我们随机生成了一些新的特征数据，并使用模型来预测其对应的目标值。

复制代码

new_data = np.random.randn(3, 10)
dnew = xgb.DMatrix(new_data)
new_pred = model.predict(dnew)
print(f"Predicted value: {new_pred}")

在这一部分，我们将通过一个分类任务来进一步探索 XGBoost 的使用。分类任务的目标是预测离散的标签或类别。我们将使用鸢尾花数据集（Iris dataset）进行演示，这是一个著名的多类分类问题数据集，包含 150 个样本，每个样本有 4 个特征和 3 种不同的类别标签。

数据准备

首先，我们加载鸢尾花数据集。这个数据集包含了 150 个样本，每个样本有 4 个特征：萼片长度、萼片宽度、花瓣长度、花瓣宽度，目标变量是花的种类，一共三种。这里我们通过打印数据的维度来确认数据的结构。

复制代码

from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target
print(X.shape, y.shape)
print(set(iris.target))

数据预处理

数据预处理步骤与回归任务类似，我们将数据集拆分为训练集和测试集，这里同样采用 80% 的数据用于训练，20% 的数据用于测试。这种拆分有助于我们在实际应用中评估模型的泛化能力。

复制代码

# 将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

尽管 XGBoost 是一个基于树的模型，通常对特征的缩放不敏感，但标准化处理可以有助于提高数值稳定性和优化性能。在这里，我们使用 StandardScaler 对特征进行标准化处理，确保每个特征均值为 0，方差为 1。

复制代码

# 对数据进行标准化
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

模型训练

与回归任务相似，我们需要将数据转换为 XGBoost 的 DMatrix 格式。

复制代码

# 转换为 DMatrix 格式
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

分类任务中，我们设置的目标函数是 multi:softmax，这意味着我们正在执行一个多类分类，其中 num_class 参数指定了类别的总数。

复制代码

# 设置参数
params = {
    'objective': 'multi:softmax',  # 分类任务的目标函数
    'num_class': 3,                # 类别数量
    'max_depth': 4,
    'eta': 0.1,
    'subsample': 0.8,
    'colsample_bytree': 0.8
}

# 训练模型
model = xgb.train(params, dtrain, num_boost_round=100)

模型评估

在模型评估阶段，我们使用准确率来衡量模型的性能。准确率是正确预测的样本数与总样本数的比率。这是评估分类模型性能的直接和常用的方法。

复制代码

from sklearn.metrics import accuracy_score

# 在测试集上进行预测
y_pred = model.predict(dtest)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")

预测新数据

最后，我们随机生成了一些新的特征数据，并使用模型进行类别预测。

复制代码

new_data = np.random.randn(3, 4)
dnew = xgb.DMatrix(new_data)
new_pred = model.predict(dnew)
print(f"Predicted class: {new_pred}")

在本节中，我们将探讨 XGBoost 在排序任务中的应用。排序任务通常用于搜索引擎优化和推荐系统，其中模型需要预测相关性或重要性的顺序。这种类型的任务是通过预测排名来优化搜索结果或推荐内容的相关性。

数据准备

首先，我们生成一个模拟的数据集，用于模拟搜索引擎的排序任务。这个数据集包含多个查询，每个查询关联一组文档。我们为每个文档生成随机特征，并为每个查询的文档分配一个随机的相关性评分。这些评分代表了文档相对于查询的相关性，评分越高，相关性越大。

复制代码

# 生成查询组，每个查询有 10 个文档，每个文档有 2 个特征
n_queries = 5  # 查询数
n_docs_per_query = 10  # 每个查询的文档数量
n_features = 2  # 每个文档的特征数

# 生成随机特征数据
X = np.random.rand(n_queries * n_docs_per_query, n_features)

# 生成每个查询的排序标签（真实值）
# 假设标签为从 0 到 9 的排序分数，数值越高，表示文档在该查询中的相关性越高
y = np.hstack([np.random.permutation(n_docs_per_query) for _ in range(n_queries)])

# 生成查询组的 ID（如：每个查询的一组文档 ID）
query_ids = np.repeat(np.arange(n_queries), n_docs_per_query)

print(X.shape, y.shape, query_ids.shape)

数据预处理

在预处理阶段，我们将数据拆分为训练集和测试集。与前两个任务相同，我们使用 80% 的数据进行训练和 20% 的数据进行测试。此外，我们保留每个查询的 ID，这对于后续的评估非常重要，因为评估排序质量需要按查询组织数据。

复制代码

# 将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test, query_train, query_test = train_test_split(
    X, y, query_ids, test_size=0.2, random_state=42
)

模型训练

在排序任务中，我们需要特别注意数据的格式和处理。XGBoost 提供了专门的排序目标函数，这里我们使用 rank:pairwise，它通过优化成对的文档顺序来训练模型。我们将训练数据转换为 DMatrix 格式，并使用排序任务的特定参数配置模型。

复制代码

# 转换为 DMatrix 格式
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

# 设置参数
params = {
    'objective': 'rank:pairwise',  # 排序任务的目标函数
    'max_depth': 4,
    'eta': 0.1,
    'subsample': 0.8,
    'colsample_bytree': 0.8
}

# 训练模型
model = xgb.train(params, dtrain, num_boost_round=100)

模型评估

在模型评估阶段，我们使用 NDCG（Normalized Discounted Cumulative Gain，归一化折损累计增益）来衡量排序的质量。NDCG 是一种衡量排名质量的指标，它考虑了排名的位置折扣因子，使得排在前面的错误比排在后面的错误影响更大。我们计算每个查询的 NDCG 得分，并求得平均值来评估整个模型的性能。

复制代码

from sklearn.metrics import ndcg_score

# 在测试集上进行预测
y_pred = model.predict(dtest)

# 将每个查询的真实标签和预测结果分开，计算 NDCG
ndcg_scores = []
for i in np.unique(query_test):
    # 对于每个查询，提取对应的真实标签和预测分数
    idx = np.where(query_test == i)
    y_true_query = np.array([y_test[idx]])  # 真实排序标签
    y_pred_query = np.array([y_pred[idx]])  # 预测的排序得分

    # 计算 NDCG 得分
    ndcg = ndcg_score(y_true_query, y_pred_query)
    ndcg_scores.append(ndcg)

# 输出平均 NDCG 得分
avg_ndcg = np.mean(ndcg_scores)
print(f"Average NDCG Score: {avg_ndcg}")

NDCG 的取值范围为 0 到 1，值越接近 1，说明模型的排序效果越好。

预测新数据

最后，我们展示如何使用训练好的模型来预测新的数据集的排序。这里我们生成一些新的随机特征数据，使用模型来预测它们在特定查询下的相关性评分。

复制代码

new_data = np.random.rand(3, 2)
dnew = xgb.DMatrix(new_data)
new_pred = model.predict(dnew)
print(f"Predicted rank score: {new_pred}")

模型存储与加载

在实际应用中，模型训练后的存储与再次加载是一个重要环节，因为它允许我们在不同的环境中重复使用已经训练好的模型，而无需重新训练。

模型保存

在模型训练完成后，我们可以将其保存到一个文件中。这里我们使用 XGBoost 的 save_model 方法，将训练好的模型保存为一个 JSON 格式的文件。

复制代码

# 保存模型到文件
model.save_model('xgboost_model.json')
print("Model saved to 'xgboost_model.json'")

JSON 是一种轻量级的数据交换格式，使得模型文件既易于存储，也便于在不同的平台之间进行共享和迁移。

保存成功后，可以点开 xgboost_model.json 文件，里面存储了 XGBoost 的参数名称、结构，以及具体的参数值。

模型加载

当我们需要使用保存的模型进行预测或进一步分析时，可以通过 XGBoost 的 load_model 方法来加载模型。这种方式非常方便，特别是在生产环境中，我们通常需要快速加载并使用模型。

复制代码

# 从文件加载模型
loaded_model = xgb.Booster()
loaded_model.load_model('xgboost_model.json')
print("Model loaded from 'xgboost_model.json'")

在本文中，我们深入探讨了 XGBoost 框架，并应用其处理多种机器学习任务，包括回归、分类和排序。通过一系列实践，我们不仅学习了 XGBoost 的基本使用，也了解了其在不同类型任务中的强大能力。

本实验环境为单机环境，未能充分展示 XGBoost 的强大分布式处理能力。建议在有条件的环境中，如集群环境下，继续探索和学习 XGBoost 的分布式计算特性。