不纯度与决策树构建
-
不纯度概念:
-
决策树通过不纯度指标来选择最佳分割节点和分枝方式
-
不纯度衡量节点中样本类别的混杂程度
-
不纯度越低,节点中样本类别越纯净,拟合效果越好
-
-
常用不纯度指标:
-
信息熵(Entropy):基于信息论的概念,衡量不确定性(这个比基尼系数让树的生长更加细腻,拟合程度高)
-
基尼系数(Gini Index):计算随机抽样时分类错误的概率(默认是这个)
-
-
节点分裂原则:
-
选择使子节点不纯度降低最多的特征进行分裂
-
子节点的不纯度总是低于父节点
-
叶子节点的不纯度是最低的
-
剪枝与防止过拟合
-
过拟合风险:
-
完全生长的决策树会对训练数据拟合得非常好(不纯度很低)
-
但可能导致树结构过于复杂,泛化能力差
-
-
剪枝方法:
-
预剪枝:在树完全生长前限制
-
限制最大深度(max_depth)
-
设置最小样本分裂数(min_samples_split)
-
设置叶子节点最小样本数(min_samples_leaf)
-
-
后剪枝:先让树完全生长,然后剪去不重要的分支
-
-
剪枝效果:
-
减少树的复杂度
-
提高模型泛化能力
-
防止对训练数据的过度拟合
-