第二章：16.5 决策树处理连续值特征

[1. 引言](#1. 引言)

[2. 数据集的扩展](#2. 数据集的扩展)

[3. 连续特征的处理方法](#3. 连续特征的处理方法)

[4. 阈值的选择与信息增益计算](#4. 阈值的选择与信息增益计算)

[5. 构建决策树](#5. 构建决策树)

[6. 总结](#6. 总结)

[7. 扩展到回归树](#7. 扩展到回归树)

如何让决策树处理连续特征：以猫狗分类为例

决策树是一种强大的分类算法，通常用于处理离散特征（如耳朵形状、脸型、胡须等）。然而，决策树也可以扩展到处理连续特征（如体重）。本文将通过一个具体的例子，展示如何在决策树中使用连续特征进行分类。

假设我们有一个猫狗分类的数据集，其中包含以下特征：

在这个数据集中，我们新增了一个特征------动物的体重（单位：磅）。猫通常比狗轻，但也有例外。尽管如此，体重仍然是一个有用的分类特征。

决策树学习算法的目标是通过选择最优的特征和分裂点，最大化信息增益。对于连续特征（如体重），算法需要找到一个最佳的阈值，将数据分为两部分，从而获得最大的信息增益。

在处理连续特征时，决策树算法需要选择一个阈值来分割数据。以下是具体步骤：

排序与中点选择

首先，根据体重对所有样本进行排序。然后，选择排序后样本值之间的中点作为可能的阈值。例如，如果有10个样本，需要测试9个可能的阈值。
信息增益计算

对于每个可能的阈值，计算分裂后的信息增益。假设我们选择8磅作为阈值，将数据分为两部分：
- 左边子集（体重 ≤ 8磅）：包含2只猫。
- 右边子集（体重 > 8磅）：包含3只猫和5只狗。
计算信息增益：
- 左边子集的熵为0（因为全是猫）。
- 右边子集的熵为0.24。
- 整体信息增益为0.5。
如果选择9磅作为阈值，信息增益会更高，达到0.61。这表明9磅是一个更好的阈值。

一旦选择了最优阈值（如9磅），决策树会根据这个阈值将数据集分为两部分：

接下来，可以在这两个子数据集上继续构建决策树的其余部分。这一过程会递归进行，直到满足停止条件（如达到最大树深、节点纯度足够高或样本数量小于某个阈值）。

决策树在处理连续特征时，会通过以下步骤进行分裂：

如果连续特征的分裂效果比其他特征更好，那么它就会被选为当前节点的分裂特征。这种方法使得决策树能够有效地处理连续特征，从而提高分类性能。

除了分类问题，决策树还可以用于回归问题。在回归树中，目标是预测连续的数值，而不是离散的类别。此时，决策树的分裂标准不再是信息增益，而是均方误差（MSE）或其他回归性能指标。通过类似的方法，决策树可以找到最优的分裂点，从而构建回归树。

这张图片展示了如何在决策树中对连续变量进行分裂，以猫狗分类问题为例，具体来说是根据动物的体重（以磅为单位）来决定是否为猫。图片中包含了一个条形图和一个决策树的示意图，以及相关的信息增益计算公式。

图片中展示了三个不同的体重阈值（8磅、9磅、10磅）的信息增益计算过程，以确定最佳分裂点：

阈值8磅：
- 计算公式：H(0.5)−(102H(22)+108H(83))=0.24
- 解释：整体熵为0.5（因为有5只猫和5只狗），左边子集（体重 ≤ 8磅）的熵为0（因为全是猫），右边子集（体重 > 8磅）的熵为0.31（因为有3只猫和5只狗，共8个样本）。
阈值9磅：
- 计算公式：H(0.5)−(104H(44)+106H(61))=0.61
- 解释：左边子集（体重 ≤ 9磅）的熵为0（因为全是猫），右边子集（体重 > 9磅）的熵为0.05（因为有1只猫和5只狗，共6个样本）。
阈值10磅：
- 计算公式：H(0.5)−(107H(75)+103H(30))=0.40
- 解释：左边子集（体重 ≤ 10磅）的熵为0.41（因为有5只猫和2只狗，共7个样本），右边子集（体重 > 10磅）的熵为0（因为全是狗）。

根据信息增益的计算结果，体重9磅的阈值提供了最大的信息增益（0.61），因此决策树会选择这个阈值作为分裂点。这意味着，对于这个数据集，体重小于或等于9磅的动物更可能是猫，而体重大于9磅的动物更可能不是猫。