决策树(理论知识2)

目录

熵的作用

熵(Entropy)是表示随机变量不确定性的度量。说简单点就是物体内部的混乱程度。比如下边的两幅图中,从 图1 到 图2 表示了熵增的过程。对于决策树的某个结点而言,它在对样本数据进行分类后,我们当然希望分类后的结果能使得整个样本集在各自的类别中尽可能有序,即希望某个特征在被用于分类后,能最大程度地降低样本数据的熵。

现在假设有这样一个待分类数据(如下图所示),若分类器 1 选择特征 x1、分类器 2 选择特征 x2 分别为根构建了一棵决策树,其效果如下:

则根据以上结果,可以很直观地认为,决策树 2 的分类效果优于决策树 1 。从熵的角度看,决策树 2 在通过特征 𝑥2 进行分类后,整个样本被划分为两个分别有序的类簇;而决策树 1 在通过特征 𝑥1 进行分类后,得到的分类结果依然混乱(甚至有熵增的情况),因此这个特征在现阶段被认为是无效特征。

熵的定义

故此,可以这样认为:构建决策树的实质是对特征进行层次选择,而衡量特征选择的合理性指标,则是熵。为便于说明,下面先给出熵的定义:设 𝑋 是取值在有限范围内的一个离散随机变量,其概率密度为:
P ( X = x i ) = p i , i = 1 , 2 , 3 , 4 , . . . , n P(X =x_i) =p_i ,i=1,2,3,4,...,n P(X=xi)=pi,i=1,2,3,4,...,n

下图展示了有关 p i p_i pi与 k 的定义(其中,𝑘 是该集合中元素的类别数):

则随机变量 𝑋 的熵定义为:
H ( X ) = ∑ i = 1 k p i l o g p i H(X) =\sum_{i=1}^k{p_ilogp_i} H(X)=∑i=1kpilogpi

从该式的定义可以看出,熵仅仅依赖于X的分布而与其取值无关,所以也可以将X的熵记为 H§ 。由于随机变量X的概率密度 p i ∈ [ 0 , 1 ] p_i\in[0,1] pi∈[0,1] ,因此 log p i ∈ ( − ∞ , 0 ] \text{log}p_i\in (−\infty,0] logpi∈(−∞,0]。此时,若在 log p i \text{log}p_i logpi前加上负号,就有 − log p i ∈ [ 0 , ∞ ) -\text{log}p_i\in[0,\infty) −logpi∈[0,∞)。所以 H ( X ) = − ∑ i = 1 k p i log p i ∈ [ 0 , ∞ ) H(X)=-\sum_{i=1}^k{p_i\text{log}p_i}\in [0,\infty) H(X)=−∑i=1kpilogpi∈[0,∞)。当某个集合含有多个类别时,此时 k 较大, p i p_i pi 的数量过多;且整体的 p i p_i pi都会因 k的过大而普遍较小,从而使得 H(X)的值过大。这正好符合"熵值越大,事物越混乱"的定义。

熵的计算

例如,现在有两个集合:𝐴 = { 1,2 } , 𝐵 = { 1,2,3,4,5,6 } ,若以这两个集合为取值空间,则可分别计算其熵。

对于集合 𝐴 ,先计算其分布列为:

xi 1 2
P(x=xi) 1/2 1/2

于是可得到其熵为:

H ( X A ) = − ∑ i = 1 2 p i log p i = − ( f r a c 12 ∗ l o g 1 2 + f r a c 12 ∗ l o g 1 2 ) = − l o g 1 2 = l o g 2 ≈ 0.69 H(X_A) = −\sum_{i=1}^2{p_i\text{log}p_i}\\ =− ( frac{1}{2} * log\frac{1}{2}+ frac{1}{2} * log\frac{1}{2} ) \\ = −log\frac{1}{2} = log 2 ≈ 0.69 H(XA)=−∑i=12pilogpi=−(frac12∗log21+frac12∗log21)=−log21=log2≈0.69

对于集合 𝐵 ,计算其分布列为:

xi 1 2 3 4 5 6
P(x=xi) 1/6 1/6 1/6 1/6 1/6 1/6

于是可得到其熵为:

​ H ( X B ) = − ∑ i = 1 6 p i log p i = − ( 6 ∗ f r a c 16 ∗ l o g 1 6 ) = − l o g 1 6 = l o g 6 ≈ 1.17 H(X_B) = −\sum_{i=1}^6{p_i\text{log}p_i}\\ =− ( 6*frac{1}{6} * log\frac{1}{6} ) \\ = −log\frac{1}{6} = log 6 ≈ 1.17 H(XB)=−∑i=16pilogpi=−(6∗frac16∗log61)=−log61=log6≈1.17

结果显示,𝐴 集合的熵值要低一些,从两个集合的内容也能很轻易看出: 𝐴 集合只有两种类别,相对稳定;而 𝐵 集合中的类别过多,显得混乱。从另一个角度看:若视集合 𝐴 为"抛 1 次硬币的结果";视集合 𝐵 为"掷 1 次骰子的结果",则显然掷骰子的不确定性比投硬币的不确定性要高。

取极端情况,当集合中仅有一类元素时,如 𝐶 = { 1,1,1,1,1,1 } 时,此时其分布列为:

xi 1
P(x=xi) 1

其熵为:

​ H ( X B ) = − ∑ i = 1 1 p i log p i = − ( 1 ∗ l o g 1 ) = 0 H(X_B) = −\sum_{i=1}^1{p_i\text{log}p_i}\\ =− ( 1* log{1} ) \\ =0 H(XB)=−∑i=11pilogpi=−(1∗log1)=0

条件熵的引入

根据熵的定义,在构建决策树时我们可采用一种很简单的思路来进行"熵减":每当要选出一个内部结点时,考虑样本中的所有"尚未被使用"特征,并基于该特征的取值对样本数据进行划分。即有:

对于每个特征,都可以算出"该特征各项取值对运动会举办与否"的影响(而衡量各特征谁最合适的准则,即是熵)。为此,引入条件熵。首先看原始数据集 𝐷 (共14天)的熵,该数据的标签只有两个("举办"与"不举办"),且各占一半,故可算出该数据集的初始熵为:

​ H ( X B ) = − ∑ i = 1 2 p i log p i = − ( 2 ∗ 1 2 ∗ l o g 1 2 ) = − l o g 1 2 = l o g 2 ≈ 0.6931 H(X_B) = −\sum_{i=1}^2{p_i\text{log}p_i}\\ =− ( 2*\frac{1}{2} * log\frac{1}{2} )\\ =-log\frac{1}{2}\\ =log2\\ ≈ 0.6931 H(XB)=−∑i=12pilogpi=−(2∗21∗log21)=−log21=log2≈0.6931

对于每个特征,我们逐个分析,先从"天气"开始:

天气 = "晴天" 时,归类集合的熵为 H ( X A ) = − ∑ i = 1 2 p i log p i = − ( 4 8 × log 4 8 + 4 8 × log 4 8 ) = − log 1 2 ≈ 0.6931 H(X_ A) =-\sum_{i=1}^2p_i \text{log}p_i=-\left(\frac48 ×\text{log} \ \frac48 + \frac48 ×\text{log} \ \frac48\right)= -\text{log} \ \frac12≈ 0.6931 H(XA)=−∑i=12pilogpi=−(84×log 84+84×log 84)=−log 21≈0.6931

天气 = "阴天" 时,归类集合的熵为 H ( X B ) = − ∑ i = 1 2 p i log p i = − ( 1 × log 1 + 0 × log 0 ) = − log = 0 H(X_ B) =-\sum_{i=1}^2p_i \text{log}p_i=-\left(1 ×\text{log} 1 + 0 ×\text{log} 0\right)= -\text{log} \ =0 H(XB)=−∑i=12pilogpi=−(1×log1+0×log0)=−log =0

天气 = "雨天" 时,归类集合的熵为 H ( X C ) = − ∑ i = 1 2 p i log p i = − ( 0 × log 0 + 1 × log 1 ) = 0 H(X_ C) =-\sum_{i=1}^2p_i \text{log}p_i=-\left(0 ×\text{log} 0 + 1 ×\text{log} 1\right)=0 H(XC)=−∑i=12pilogpi=−(0×log0+1×log1)=0

从原始数据表可知,"天气" 特征取值为 "晴天"、"阴天"、"雨天" 的概率分别为 8 14 , 3 14 , 3 14 \frac{8}{14},\frac{3}{14} ,\frac{3}{14} 148,143,143因此,若以 "天气" 特征为现阶段的内部节点(用于划分的特征),则整个系统的熵值为:

8 14 H ( X A ) + 3 14 H ( X B ) + 3 14 H ( X C ) = 8 14 ∗ 0.6931 + 3 14 ∗ 0 + 3 14 ∗ 0 ≈ 0.3961 \frac{8}{14}H(X_ A)+\frac{3}{14}H(X_ B)+\frac{3}{14}H(X_ C) \\ =\frac{8}{14}*0.6931+\frac{3}{14}*0+\frac{3}{14}*0\\ ≈ 0.3961 148H(XA)+143H(XB)+143H(XC)=148∗0.6931+143∗0+143∗0≈0.3961

条件熵的计算

在上面的计算中,我们将"天气"特征展开,以分别求解各取值对应集合的熵。实际上,该式的计算正是在求条件熵。条件熵 𝐻(𝑌 | 𝑋) 表示在已知随机变量 𝑋 的条件下随机变量 𝑌 的不确定性。它的数学定义是:若设随机变量 (𝑋, 𝑌) ,其联合概率密度为

P ( X = x i , Y = y j ) = p i j , i = 1 , 2 , ... , n P(X=x_i ,Y=y_j )=p_{ij}, i=1,2,...,n P(X=xi,Y=yj)=pij,i=1,2,...,n

则定义条件熵 𝐻(𝑌 | 𝑋) :在给定 𝑋 的条件下 𝑌 的条件概率分布对 𝑋 的数学期望,即
H ( Y ∣ X ) = ∑ i = 1 k p i H ( Y ∣ X = x i ) H(Y∣X)= \sum_{i=1}^k{p_i H(Y|X=x_i)} H(Y∣X)=i=1∑kpiH(Y∣X=xi)

其中, p i = P ( X = x i ) , i = 1 , 2 , ... , k p_i = P(X = x_i), i = 1 , 2 , ... , k pi=P(X=xi),i=1,2,...,k (表示指定集合中的元素类别) 。

按照这样的定义,可算出其余各特征的条件熵分别为:

特征取 "温度" 时:

特征取 "风速" 时:

特征取 "湿度" 时:

相关推荐
minstbe2 分钟前
半导体数据分析: 玩转WM-811K Wafermap 数据集(二) AI 机器学习
人工智能·机器学习
終不似少年遊*9 分钟前
数据结构与算法之排序
数据结构·python·算法·排序算法
lgily-122521 分钟前
Python常用算法
开发语言·python·算法
闻缺陷则喜何志丹22 分钟前
【C++动态规划】1547. 切棍子的最小成本|2116
c++·算法·动态规划·力扣·最小·成本·棍子
James Shangguan34 分钟前
LeetCode 704 如何正确书写一个二分查找
数据结构·算法·leetcode
FL162386312938 分钟前
遥感图像塔吊检测数据集VOC+YOLO格式1567张1类别
深度学习·yolo·机器学习
qq_189370491 小时前
决定系数(R²分数)——评估回归模型性能的一个指标
机器学习
Swift社区1 小时前
【Vue.js 组件化】高效组件管理与自动化实践指南
vue.js·算法·leetcode·职场和发展
快敲啊死鬼2 小时前
代码随想录18
算法