学习目录:
决策树简介
ID3决策树
C4.5决策树
CART决策树
案例泰坦尼克号生存预测
CART回归树
决策树剪枝
(决策树中用到的比较多的几种树:ID3决策树、C4.5决策树、CART决策树:ID3决策树有弊端,为解决其弊端,设计了C4.5决策树,有C5.0决策树,但其不开源;这两个会理论即可。真正需要掌握的是CART决策树 :C-Classify分类、A-and、R-Regression回归、T-Tree即 分类回归树,即这种树既能做分类又能做回归 ;而ID3决策树、C4.5决策树只能做分类 ;对CART决策树进行分类和回归的分开讲解,当一棵决策树树枝较繁琐、庞大的情况下,要对树进行剪枝操作;
学习目标:理解 ID3决策树、C4.5决策树 底层原理:ID3是用信息增益 来划分节点的、C4.5是用信息增益率来划分的;CART底层:CART决策树用G1值、CART回归树用平均值:里面涉及到一个词 GiNi基尼值。回归这里有CART回归树、前面还有线性回归、逻辑回归;)
1. 决策树简介
(决策树:根据某些特征和信息作为根节点,往下划分子集的过程叫决策树;谁当根节点、谁当第二层 是接下来要研究的问题;树如果过于复杂,容易发生过拟合,就需要通过剪枝进行处理;决策树是一种有监督学习:有特征、有标签;)
