机器学习sklearn:不纯度与决策树构建

不纯度与决策树构建

  1. 不纯度概念

    • 决策树通过不纯度指标来选择最佳分割节点和分枝方式

    • 不纯度衡量节点中样本类别的混杂程度

    • 不纯度越低,节点中样本类别越纯净,拟合效果越好

  2. 常用不纯度指标

    • 信息熵(Entropy):基于信息论的概念,衡量不确定性(这个比基尼系数让树的生长更加细腻,拟合程度高)

    • 基尼系数(Gini Index):计算随机抽样时分类错误的概率(默认是这个)

  3. 节点分裂原则

    • 选择使子节点不纯度降低最多的特征进行分裂

    • 子节点的不纯度总是低于父节点

    • 叶子节点的不纯度是最低的

剪枝与防止过拟合

  1. 过拟合风险

    • 完全生长的决策树会对训练数据拟合得非常好(不纯度很低)

    • 但可能导致树结构过于复杂,泛化能力差

  2. 剪枝方法

    • 预剪枝:在树完全生长前限制

      • 限制最大深度(max_depth)

      • 设置最小样本分裂数(min_samples_split)

      • 设置叶子节点最小样本数(min_samples_leaf)

    • 后剪枝:先让树完全生长,然后剪去不重要的分支

  3. 剪枝效果

    • 减少树的复杂度

    • 提高模型泛化能力

    • 防止对训练数据的过度拟合