机器学习 - 决策树

场景

之前有说过k近邻算法，k近邻算法是根据寻找最相似特征的邻居来解决分类问题。k近邻算法存在的问题是：不支持自我纠错，无法呈现数据格式，且吃性能。k近邻算法的决策过程并不可视化。对缺失数据的样本处理很不友好，而且当处理具有许多特征的高维数据时，K-NN的性能可能会下降。

熵

在了解决策树之前，有必要了解一个熵的概念，这是高数必学的一个东西。

熵（Entropy）的定义

熵是信息论中的一个核心概念，最初由克劳德·香农提出。它是用来量化信息中的不确定性或混乱度的度量。在信息论中，熵可以理解为传输的信息量或系统的无序程度。

举例

抛硬币，硬币有正有反，理论上抛到正面和抛到负面的概率是一样大，我跑了三次硬币，分别是

次数	结果
1	正
2	反
3	正

问：我第四抛硬币的结果是什么？

这不扯淡吗？我怎么会知道？这种情况下的熵是最大的。

拿小球，我一个袋子里有一百个球，其中一个黑球，九十九个白球，问：你会拿到什么球？

我可以直接预测：白球。

结论是：不确定性较小，熵也相应较低。不确定性越高，熵就越高。

数学上，对于一个离散随机变量 X，其熵 H(X) 可以通过以下公式定义：

有了公式我们可以计算一下抛一枚硬币的熵值是多少？

python 复制代码

from math import log2

# 抛硬币是一个典型的二分类问题，正面和反面出现的概率相等，都是0.5
prob_head = 0.5  # 正面的概率
prob_tail = 0.5  # 反面的概率

# 根据熵的公式计算熵
entropy = - (prob_head * log2(prob_head) + prob_tail * log2(prob_tail))
entropy

结果是 1

熵和决策树

案例

假设我们有以下简单的数据集，它包含了一些关于天气条件的观察结果，以及人们是否选择出门郊游的决定：

天气	温度	风速	出门郊游
晴朗	热	高	否
雨天	凉	低	是
阴天	温暖	高	是
晴朗	凉	低	否
晴朗	温暖	高	是
雨天	热	高	否
阴天	凉	低	是

步骤1：计算数据集的熵

首先，我们计算整个数据集的熵。熵是衡量数据集不确定性的度量，它基于最终决定（出门郊游）的分布。

在这个数据集中，有4个"是"和3个"否"。因此，数据集的熵将基于这两个类别的分布来计算。

python 复制代码

# 计算熵
def calcShannonEnt(dataSet):
    # 统计实例总数
    numEntries = len(dataSet)
    # 字典标签，统计标签出现的次数
    labelCounts = {}
    for data in dataSet:
        # 每个实例的最后一个元素是标签元素
        currentLabel = data[-1]
        if currentLabel not in labelCounts:
            labelCounts[currentLabel] = 0
            # 为当前类别标签的计数加一
        labelCounts[currentLabel] += 1

    # 设置初始熵
    shannonEnt = 0.0  # 初始化熵为0
    for key in labelCounts:
        prob = float(labelCounts[key]) / numEntries  # 计算每个类别标签的出现概率
        shannonEnt -= prob * log(prob, 2)  # 使用香农熵公式计算并累加熵
    return shannonEnt  # 返回计算得到的熵

步骤2：特征分割

接下来，我们尝试不同的特征来分割数据集，并计算每种分割的熵。

例如，以"天气"为分割特征：

当天气为"晴朗"时，我们有3个样本，其中有1个"是"和2个"否"。

当天气为"雨天"时，有2个样本，都是"否"。

当天气为"阴天"时，有2个样本，都是"是"。

除了天气，我们还有其他的特征，遍历所有的特征，并且得到所有特征的熵累加

java 复制代码

    for i in range(numFeatures):  # 遍历所有特征
        featList = [example[i] for example in dataSet]  # 提取当前特征列的所有值
        uniqueVals = set(featList)  # 获取当前特征的唯一值集合
        newEntropy = 0.0  # 初始化新熵
        for value in uniqueVals:  # 遍历当前特征的每个唯一值
            subDataSet = splitDataSet(dataSet, i, value)  # 根据当前特征和值分割数据集
            prob = len(subDataSet) / float(len(dataSet))  # 计算子数据集的比例
            newEntropy += prob * calcShannonEnt(subDataSet)  # 计算新熵，并累加

步骤3：计算信息增益

txt 复制代码

  什么是信息增益？
  信息增益衡量的是在知道某个特征的信息之后，数据集熵的减少量，即该特征给我们带来多少信息。

H(D) 是数据集的熵，H(D∣A) 是在知道特征 A 的信息之后数据集 D 的条件熵。

这是数据集当前的熵，初始化最佳信息增益，初始化最佳特征的索引，初始化新熵

python 复制代码

 baseEntropy = calcShannonEnt(dataSet)  # 计算数据集当前的熵
 bestInfoGain = 0.0  # 初始化最佳信息增益
 bestFeature = -1    # 初始化最佳特征的索引
   newEntropy = 0.0  # 初始化新熵

目前我们有三种天气，分别是晴朗，雨天，阴天。

那么，晴朗占总数据的多少？subDataSet是总数据集中晴朗的数据明细，那么算出晴朗的熵，然后到了雨天，阴天同理，将他们的熵累加起来。

python 复制代码

       for value in uniqueVals:  # 遍历当前特征的每个唯一值
          subDataSet = splitDataSet(dataSet, i, value)  # 根据当前特征和值分割数据集
          prob = len(subDataSet) / float(len(dataSet))  # 计算子数据集的比例
          newEntropy += prob * calcShannonEnt(subDataSet)  # 计算新熵，并累加

构建决策树

决策树

决策树是一种流行的机器学习算法，用于分类和回归任务。它模拟了人类决策过程的方式，通过一系列的问题来推导出结论。

基本原理：

节点：决策树由节点组成，包括决策节点和叶节点。决策节点表示一个属性或特征，叶节点代表决策的结果。

分割：从根节点开始，根据数据集的特征对数据进行分割，每个分割创建子节点。

信息增益：选择分割的特征基于信息增益（或其他类似指标，如Gini不纯度）。目标是选择能最有效提高决策纯度的特征。

递归：重复这个过程，为每个子节点继续创建更深层次的分割，直到满足停止条件（如达到预定深度，或子节点纯度足够高）。

和熵关联起来

我们之前得到了每一个特征的熵，也得到了他们的信息增益。根据前面的例子（自行计算）我们选择具有最大信息增益的特征来分割数据集。这意味着该特征在减少预测是否去郊游的不确定性方面最有效。在我们的例子中，假设"天气"特征带来了最大的信息增益，那么它将成为决策树的第一个决策点。基于"天气"特征构建决策树的顶部。然后，针对"晴朗"、"雨天"和"阴天"这三个子集重复上述过程，选择下一个最佳分割特征，直到所有子集都足够"纯净"或达到树的最大深度。通过这个过程，熵和信息增益帮助我们识别哪些特征对于预测结果最重要，从而可以构建一个有效的决策树模型。每次分割旨在创建更"纯净"的子集，最终构建出能够准确预测新样本类别的决策树。

总结

我们通过信息增益构建决策树，决策树类似于if else条件流程，我们可以使用python的绘图工具画出来。决策树的范例，如下，我们通过决策树就可以直接得到预测结果。

结束

决策树虽然是一个强大且易于理解的机器学习工具，但它们也有一些缺点和局限性：

过拟合问题：决策树非常容易过拟合，尤其是当树变得非常深或复杂时。过拟合意味着树对训练数据过于精确地建模，从而捕捉到了噪声和异常值，这会降低其在新数据上的预测性能。

不稳定性：决策树可能对数据中的小变化非常敏感。即使是非常小的数据变动，也可能导致生成完全不同的树。

处理非线性问题的能力有限：决策树可能不擅长处理数据间的复杂关系或非线性问题。例如，如果类别边界是圆形的，单一的决策树可能很难处理这样的情况。

信息增益偏好：在选择分割的特征时，决策树倾向于选择拥有更多水平（levels）的特征，这并不总是最佳选择。

结果不一定最优：决策树算法（如ID3、C4.5、CART）通常使用启发式方法来构建树，这意味着结果可能并不是全局最优的。

类别不平衡问题：如果数据集中的类别分布极不平衡，决策树可能会偏向于多数类，从而影响模型的性能。

由于这些原因，决策树通常与其他技术（如剪枝、集成方法等）结合使用，以提高其性能和鲁棒性。例如，随机森林和梯度提升树就是使用决策树构建的集成学习算法，它们通常能提供比单个决策树更好的性能和泛化能力。