第一章:决策树原理 1-决策树算法概述_哔哩哔哩_bilibili
根节点的选择应该用哪个特征?接下来选什么?如何切分?
决策树判断顺序比较重要。可以使用信息增益、信息增益率、
在划分数据集前后信息发生的变化称为信息增益,获得信息增益最高的特征就是最好的选择。集合信息的度量方式称为香农熵,或者简称熵。
常用的决策树算法
连续值应该怎么分?
排序之后二分。
决策树剪枝策略。
决策树有过拟合的风险,理论上可以完全分得开数据(如果树足够庞大,每个叶子节点就一个数据)
剪枝策略
预剪枝:边建立决策树边进行剪枝的操作(更实用)。
限制深度;叶子节点个数;叶子节点样本数;信息增益量等。
后剪枝:当建立完决策树后进行剪枝操作(用的不多)。