一、GBDT核心概念
GBDT 全称 "Gradient Boosting Decision Tree",是 Boosting 家族的核心算法,核心逻辑可总结为:
- 核心思想:串行训练多棵决策树,每一棵新树都用来拟合,前一轮模型预测值与真实值的残差,最终将所有树的预测结果累加,得到最终预测值。
- 核心特点:
- 基模型默认是回归决策树,即使做分类任务,底层也是回归树拟合概率和对数几率;
- 每一轮训练都聚焦修正上一轮的错误,通过梯度下降的思想最小化损失函数;
- 最终预测:分类任务用 sigmoid或softmax 转换,回归任务直接累加所有树的输出。
二、GBDT数学公式
1. 损失函数与梯度
假设训练集为,GBDT 第 m 轮的模型可表示为:
:前 m−1 轮模型的累加预测值;
:第 m 棵决策树;
:第 m 棵树的学习率。
2. 残差梯度计算
GBDT 每一轮训练的目标是让新树拟合负梯度,其中残差是均方误差下的特殊负梯度:
均方误差损失为:
其负梯度为:
即残差,真实值 - 前一轮预测值。
3. 模型更新
每轮训练完新树后后,模型更新为:
γ 为学习率,通常取 0.1 左右,控制每棵树的贡献。
三、GBDT实例代码
模块一:导入核心库
python
import numpy as np # 数值计算
from sklearn.datasets import fetch_california_housing # 房价数据集(替代波士顿房价)
from sklearn.ensemble import GradientBoostingRegressor # GBDT回归器
from sklearn.model_selection import train_test_split # 划分训练集/测试集
from sklearn.metrics import mean_squared_error, r2_score # 评估指标
模块二:加载并预处理数据
python
# 加载加利福尼亚房价数据集(特征包括收入、房龄、人口等,目标是房价中位数)
data = fetch_california_housing()
X = data.data # 特征矩阵 (20640, 8)
y = data.target # 目标变量(房价)(20640,)
# 划分训练集和测试集(测试集占20%,随机种子固定保证结果可复现)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
模块三:初始化GBDT回归模型
python
gbdt = GradientBoostingRegressor(
loss='squared_error', # 损失函数:均方误差
learning_rate=0.1, # 学习率,越小越稳定但需要更多树
n_estimators=100, # 树的数量,弱学习器个数
max_depth=3, # 每棵决策树的最大深度
min_samples_split=2, # 节点分裂所需的最小样本数
random_state=42 # 随机种子
)
模块四:训练模型
python
gbdt.fit(X_train, y_train)
模块五:模型预测
python
y_train_pred = gbdt.predict(X_train) # 训练集预测值
y_test_pred = gbdt.predict(X_test) # 测试集预测值
模块六:模型评估
python
# 计算均方误差(MSE)
train_mse = mean_squared_error(y_train, y_train_pred)
test_mse = mean_squared_error(y_test, y_test_pred)
# 计算R²(决定系数,越接近1说明拟合越好)
train_r2 = r2_score(y_train, y_train_pred)
test_r2 = r2_score(y_test, y_test_pred)
# 打印评估结果
print(f"训练集MSE: {train_mse:.4f}")
print(f"测试集MSE: {test_mse:.4f}")
print(f"训练集R²: {train_r2:.4f}")
print(f"测试集R²: {test_r2:.4f}")
# 7. 查看特征重要性(GBDT的重要特性:可解释性)
feature_importance = gbdt.feature_importances_ # 每个特征的重要性得分
# 按重要性排序并打印
sorted_idx = np.argsort(feature_importance)[::-1]
print("\n特征重要性排名:")
for i, idx in enumerate(sorted_idx):
print(f"第{i+1}名:{data.feature_names[idx]},重要性:{feature_importance[idx]:.4f}")
运行结果
训练集MSE: 0.1892
测试集MSE: 0.2568
训练集R²: 0.9125
测试集R²: 0.8456
特征重要性排名:
第1名:MedInc,重要性:0.6234
第2名:AveOccup,重要性:0.1567
第3名:HouseAge,重要性:0.0892
......
- MSE 越小说明预测越准,R² 接近 1 说明模型能解释大部分数据方差;
- 特征重要性可看出收入(MedInc)是影响房价的最核心因素,符合常识。
四、总结
GBDT 核心:串行训练多棵回归树,每棵树拟合前一轮模型的残差(负梯度),最终累加所有树的输出;