[机器学习]决策树的预剪枝和后剪枝

在决策树算法中，剪枝（Pruning） 是防止模型过拟合的关键技术，分为 预剪枝（Pre-Pruning） 和 后剪枝（Post-Pruning） 两种策略。它们的核心区别在于剪枝的时机和方法：

1. 预剪枝（Pre-Pruning）

定义：在决策树生成过程中，提前停止树的生长，防止树变得过于复杂。
核心思想：在分裂节点前，通过某些规则判断是否继续分裂。如果分裂后无法显著提升泛化性能，则停止分裂。
常见停止条件：
- 节点样本数下限：若节点样本数小于设定阈值（如少于5个样本），停止分裂。
- 信息增益/基尼系数提升不足：若分裂后的指标提升小于阈值，停止分裂。
- 树的最大深度：限制树的层数（如最多3层）。
- 类别纯度达标：若节点中某一类占比超过阈值（如95%），停止分裂。
优点：
- 计算效率高（避免生成复杂树后再剪枝）。
- 适合大规模数据或资源受限的场景。
缺点：
- 可能欠拟合：过早停止可能导致某些重要分支未被探索。
- 依赖参数设置：阈值选择不当可能影响模型效果。

示例：

假设用决策树预测"是否购买电脑"，当某节点样本数为10且信息增益为0.001时，预剪枝会直接停止分裂。

定义：先让决策树完全生成（可能过拟合），再自底向上剪去冗余分支，用简化后的树替代原树。
核心思想：通过验证集评估剪枝前后的泛化性能，若剪枝后性能不下降（或提升），则保留剪枝。
常见方法：
- 错误率降低剪枝（REP） ：用验证集测试剪枝前后的错误率。
- 悲观剪枝（Pessimistic Pruning） ：通过统计修正（如C4.5算法）估计剪枝后的错误率。
- 代价复杂度剪枝（CCP） ：为树的复杂度（如节点数）赋予惩罚项，平衡准确率与复杂度（CART算法使用）。
优点：
- 更精确：基于完整树结构优化，保留重要分支。
- 泛化能力强：通常比预剪枝效果更好。
缺点：
- 计算成本高（需生成完整树后再剪枝）。
- 需要额外验证集。

示例：

一棵完整的决策树在测试中发现，某个分支的验证集错误率高于剪枝后的父节点，则将该分支剪掉，用父节点直接作为叶子节点。

特征	预剪枝	后剪枝
剪枝时机	树生成过程中	树完全生成之后
计算效率	高（避免生成复杂树）	低（需生成完整树后再剪枝）
过拟合风险	可能欠拟合	更可能找到平衡点
泛化能力	一般	通常更强
参数敏感性	依赖阈值设置	依赖验证集质量
典型算法	ID3（通过参数限制）	C4.5(悲观剪枝)、CART(代价复杂度剪枝)（二者都内置后剪枝机制）

实际应用中，后剪枝效果通常优于预剪枝，因为预剪枝可能因"目光短浅"错失重要分支，而后剪枝基于全局优化。