决策树及其拓展吴恩达课程

看到了个关于决策树很好的文章：链接

在所有可能的决策树中，选择一个在训练集上表现良好，并能很好的推广到新数据（即交叉验证集和测试集）的决策树。
参考文章

信息增益越大，表示该特征对数据集划分所获得的"纯度提升"越大。所以信息增益可以用于决策树划分属性的选择，即选择信息增益最大 的属性。

关于信息增益的另一篇参考文章

计算所有可能的信息增益，并选择最高的信息增益，根据选择的特征拆分数据集，并创建左右节点。继续递归调用以上拆分过程，直到达到阈值标准为止：

1.当某个节点的纯度为100%，即该节点的所有样本都属于一个类

2.当拆分节点后，导致树的深度超过最大深度

3.当拆分节点后，信息增益小于阈值时

4.当节点中的样本个数小于阈值时

独热编码用来解决类别型数据的离散值问题

优：独热编码解决了分类器不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。
缺：当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。
独热编码详细解说