集成学习之GBDT算法详解

先说一下提升树(Boosting Decision Tree):通过拟合残差的思想来进行提升,残差 = 真实值 - 预测值,例如:

  • 某人年龄为100岁,预测其年龄

  • 第一次预测结果为80岁,残差为100-80=20

  • 第二次预测以残差20为目标,预测结果为16岁,残差为4

  • 第三次预测以残差4为目标,预测结果为3.2,残差为0.8

  • 三次结果串联起来预测结果为80+16+3.2=99.2,通过拟合残差可以将多个弱学习器组成一个强学习器

梯度提升树(Gradient Boosting Decisen Tree):梯度提升树不再拟合残差,而是采用类似于梯度下降的方法,利用损失函数的负梯度 作为提升树算法中的残差近似值。一句话:把损失函数的负梯度作为下次预测的目标值,把同子树的均值作为预测值,相减作为负梯度。

假设:

  • 前一轮迭代得到的强学习器:

    • ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​
  • 损失函数为平方损失:

    • ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​
  • 本轮迭代的目标是找到一个弱学习器:

    • ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​
  • 本轮的强学习器为:

    • ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

则本轮的损失函数为:

则要拟合的负梯度为:

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

注:如果GBDT进行的是分类问题,则损失函数变为对数损失。

算法推导案例

x 1 2 3 4 5 6 7 8 9 10
目标值 5.56 5.70 5.91 6.40 6.80 7.05 8.90 8.70 9.00 9.05
  1. 初始化弱学习器(CART树):把预测值初始化为目标值的均值,可使第一个弱学习器的损失函数最小,证明如下:

,求平方误差最小,即对损失函数求导,导数为0时,函数最小

可令

由以上公式可得,当初始化为均值时,可以使损失函数最小

  1. 构建第1个弱学习器,根据负梯度的计算方法得到下表
  • 当以1.5为分割点,拟合负梯度为-1.75,-1.61,-1.4,-0.91,...,1.74

    • 左子树均值为-1.75,右子树均值为( - 1.61 - 1.40 - 0.91 - 0.51 - 0.26 + 1.59 + 1.39 + 1.69 + 1.74 ) / 9=0.19

    • 平方损失:左子树0+右子树(-1.61-0.19)2 + (-1.40-0.19)2 + (-0.91-0.19)2 + (-0.51-0.19)2 +(-0.26-0.19)2 +(1.59-0.19)2 + (1.39-0.19)2 + (1.69-0.19)2 + (1.74-0.19)2 =15.72308

  • 以次把其它点作为分割点,并求损失函数

  1. 构建第2个弱学习器,以3.5 作为切分点时,平方损失最小,此时得到第2棵决策树

API

python 复制代码
# 1 初始化弱学习器(目标值的均值作为预测值)
# 2 迭代构建学习器,每一个学习器拟合上一个学习器的负梯度
# 3 直到达到指定的学习器个数
# 4 当输入未知样本时,将所有弱学习器的输出结果组合起来作为强学习器的输出
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
import pandas as pd
titanic_df = pd.read_csv('titanic/train.csv')
X = titanic_df[['Pclass','Age','Sex']]
y = titanic_df['Survived']
# 性别编码
X = pd.get_dummies(X) 
# 年龄进行缺失值填充
X['Age'].fillna(X['Age'].mean(),inplace = True)
# 训练集测试集划分
X_train, X_test, y_train, y_test = train_test_split(X,y,stratify=y,random_state=66)
gboost_classifier = GradientBoostingClassifier()
parmas = {"n_estimators": [50,100,150], "max_depth": [2,3,5,8,10],'learning_rate':[0.1,0.3,0.5,0.7,0.9]}
# 交叉验证和网格搜索 寻找最优的超参数组合
gs_estimator = GridSearchCV(gboost_classifier,param_grid=parmas,cv=4)
gs_estimator.fit(X_train,y_train)
相关推荐
SmallBambooCode3 分钟前
【人工智能】【Python】在Scikit-Learn中使用KNN(K最近邻算法)
人工智能·python·机器学习·scikit-learn·近邻算法
jaffe—fly6 分钟前
【解决问题】conda 虚拟环境内,`pip list` 展示全局的包
python·conda·pip
带上一无所知的我6 分钟前
解锁Conda:Python环境与包管理的终极指南
开发语言·python·conda
changwan11 分钟前
基于Celery+Supervisord的异步任务管理方案
后端·python·性能优化
君秋水11 分钟前
Python异步编程指南:asyncio从入门到精通(Python 3.10+)
后端·python
302wanger12 分钟前
ARTS-算法-长度最小的子数组
算法
訾博ZiBo18 分钟前
AI日报 - 2025年3月7日
人工智能
梓羽玩Python21 分钟前
一夜刷屏AI圈!Manus:这不是聊天机器人,是你的“AI打工仔”!
人工智能
Gene_INNOCENT22 分钟前
大型语言模型训练的三个阶段:Pre-Train、Instruction Fine-tuning、RLHF (PPO / DPO / GRPO)
人工智能·深度学习·语言模型
游戏智眼22 分钟前
中国团队发布通用型AI Agent产品Manus;GPT-4.5正式面向Plus用户推出;阿里发布并开源推理模型通义千问QwQ-32B...|游戏智眼日报
人工智能·游戏·游戏引擎·aigc