GBDT 中的前向分布算法和贪婪学习

GBDT 中的前向分布算法 和贪婪学习 ，可以从「加法模型的本质」入手，用大白话 + 生活类比的方式讲解，全程结合 GBDT 的训练过程，零基础也能理解。

前向分布算法是专门为加法模型设计的训练方法，所以我们先明确什么是加法模型。

GBDT 的最终模型可以写成这样：fM(x)=f0(x)+η⋅h1(x)+η⋅h2(x)+...+η⋅hM(x)

类比：加法模型就像叠积木，最终的模型是一块一块积木（基模型）叠出来的，积木越多，模型的预测效果越好。

前向分布算法的核心是：不一次性训练所有基模型，而是分步骤迭代训练 ------ 每一步只训练 1 个新的基模型，前面已经训练好的基模型全部固定不动。

这个算法的目的是简化加法模型的优化难度------ 如果要同时优化 M 棵树的参数，计算量会爆炸；而分步训练，每一步只优化 1 棵树，就把复杂问题拆成了 M 个简单问题。

我们用 GBDT 回归任务的训练过程，看前向分布算法是怎么工作的：

步骤	操作	前向分布的体现
1	初始化初始模型 f0(x)=所有样本标签的均值	先搭好第一块「基础积木」
2	训练第 1 棵树 h1(x)：用残差 yi−f0(xi) 作为新标签，找最优划分	只优化 h1(x)，f0(x) 固定不变
3	更新模型：f1(x)=f0(x)+η⋅h1(x)	叠上第 1 块新积木，形成新的模型
4	训练第 2 棵树 h2(x)：用残差 yi−f1(xi) 作为新标签	只优化 h2(x)，f0(x) 和 h1(x) 完全固定
5	重复步骤 3-4，直到生成 M 棵树	每一步只加 1 块新积木，前面的积木绝不改动

前向分布算法就像包饺子：

你不会在擀皮的时候回头改馅料，也不会在煮饺子的时候回头重新擀皮 ------每一步只做一件事，做完就固定，绝不返工，这就是前向分布算法的核心。

贪婪学习是一种决策策略 ：在每一步选择方案时，只追求当前步骤的最优解，不考虑这个选择对未来步骤的影响。

它的特点是：局部最优 ≠ 全局最优 ，但胜在计算简单、速度快------ 对于 GBDT 这种需要迭代数百次的模型，贪婪策略是性价比最高的选择。

GBDT 每一轮训练新树 hm(x) 时，完全遵循贪婪策略，具体表现为：

假设你在一个迷宫里，目标是走到出口，你用贪婪策略的话：

在 GBDT 训练第 1 棵树时：

概念	定位	在 GBDT 中的作用
前向分布算法	训练框架	把「同时训练 M 棵树」的复杂问题，拆成「逐次训练 1 棵树」的简单问题
贪婪学习	每一步的决策策略	让每一步训练树时，能快速找到当前最优的划分方案，保证训练效率

两者结合的效果：

贪婪学习的「局部最优」会不会导致 GBDT 效果差？

不会。因为 GBDT 是串行迭代的 ------ 即使第 m 棵树选了一个「不完美」的划分，第 m+1 棵树可以拟合这个划分带来的新残差，相当于「修正错误」；
只要树的数量 M 足够多，模型就能不断修正误差，最终达到很好的预测效果。