[机器学习]GBDT高阶特征组合

GBDT（Gradient Boosting Decision Tree）通过树的路径分裂规则 生成高阶特征组合，这些组合本质上是从根节点到叶子节点的路径上多个特征的分裂条件的联合作用。具体来说，高阶特征组合的生成发生在以下两个核心环节：

每一棵决策树通过递归分裂特征，生成树的分支路径。一条路径上的分裂条件隐式地组合了多个特征。例如：

假设一棵树的路径规则为：
特征A > 10 → 特征B < 5 → 特征C ∈ {类别X}，
这条路径等价于一个三阶特征组合 ：(A > 10) & (B < 5) & (C = X)。
树的深度决定了组合阶数：树深为 kk 时，路径上的分裂条件最多可形成 kk 阶特征组合。

原始特征：用户年龄、商品价格、点击历史。

一棵树的分裂路径可能为：
用户年龄 > 25 → 商品价格 < 100 → 点击历史 ≥ 3次，

该路径对应组合特征：(年龄>25且价格<100且点击≥3次)。

GBDT通过多棵树的集成，进一步显式增强高阶组合的覆盖能力：

每棵树关注不同残差：后一棵树拟合前一棵树的预测残差，迫使模型学习未被充分捕捉的特征组合。
全局组合的叠加：不同树的分裂路径可能覆盖不同维度或不同阶数的组合。例如：
- 树1捕捉 (A & B)；
- 树2捕捉 (B & C)；
- 树3捕捉 (A & C & D)；
- 整体模型覆盖了更高阶的交互（如三阶组合）。

在GBDT与LR的组合模型中，每棵树的叶子节点会被编码为离散特征，输入到LR中：

特征转换过程：
- 每个样本经过GBDT的每棵树后，会落到一个叶子节点。
- 将所有树的叶子节点编号转化为二值化特征向量（One-Hot编码），例如：
  - 树1有3个叶子，树2有5个叶子 → 总特征维度为8。
  - 若样本落在树1的叶子2和树2的叶子4，则特征向量为 [0,1,0,0,0,1,0,0]。
叶子节点的物理意义：
- 每个叶子节点对应一条路径规则（即一个特征组合），因此特征向量本质上是所有高阶组合的联合表示。

传统LR需要人工设计如 (A*B)、(B/C) 等交叉特征，而GBDT通过以下方式替代人工：

方法	特征组合生成方式	优势	缺点
人工设计	人工定义（如多项式展开、业务规则）	可解释性强，符合业务直觉	耗时，可能遗漏重要组合
GBDT自动生成	树的分裂路径隐式编码组合	自动化，覆盖更全面的交互关系	可解释性较弱（需依赖特征重要性分析）

这种设计使得GBDT+LR既能处理高维稀疏特征（LR的优势），又能自动挖掘高阶组合（GBDT的优势），成为处理CTR预估等复杂场景的经典方案。