1. 决策树的基本概念
-
定义:决策树是一种树形结构的机器学习模型,从根节点开始,通过特征的分支选择一步步走到叶子节点,最终完成分类或回归任务。
-
组成:
-
根节点:第一个特征选择点。
-
非叶子节点与分支:中间的特征切分过程。
-
叶子节点:最终的决策结果。
-
2. 决策树的训练与测试
-
训练阶段:从训练数据中构造决策树,核心在于如何选择特征进行切分。
-
测试阶段:根据构造好的决策树,对新数据进行分类或回归预测。
3. 特征切分的关键问题
-
目标:选择能够最好地切分数据的特征,使得分类效果最优。
-
方法:通过衡量标准(如熵和信息增益)来选择最佳特征。
4. 衡量标准:熵
-
熵(Entropy):表示随机变量的不确定性,公式为:
H(X)=−∑pilogpiH(X)=−∑pilogpi
-
熵值越大,不确定性越高。
-
当类别完全确定(p=0p=0或p=1p=1)时,熵为0;当类别完全不确定(p=0.5p=0.5)时,熵最大。
-
5. 信息增益
-
定义:表示特征XX使得类别YY的不确定性减少的程度。
-
作用:选择信息增益最大的特征作为节点,使得分类后的数据尽可能"纯净"(同类在一起)。
-
计算步骤:
-
计算原始数据的熵。
-
按某特征切分后,计算各子集的熵的加权和。
-
信息增益 = 原始熵 - 切分后的熵。
-
6. 决策树构造实例
-
数据:14天打球情况,特征包括天气(Outlook)等。
-
步骤:
-
计算原始熵(如打球和不打球的分布)。
-
对每个特征(如Outlook)计算切分后的熵和信息增益。
-
选择信息增益最大的特征作为根节点,递归构造子树。
-
7. 关键点总结
-
核心思想:通过递归选择最优特征切分数据,构建树形模型。
-
难点:如何选择特征切分点?------使用信息增益等衡量标准。
-
优点:模型直观,易于理解和解释;适用于分类和回归任务。
-
缺点:容易过拟合,需通过剪枝等方法优化。
8. 应用场景
-
分类问题(如是否打球)。
-
回归问题(如预测数值型目标)。
决策树是机器学习中基础而强大的工具,理解其原理和构造过程对掌握更复杂的模型(如随机森林、梯度提升树)至关重要