决策树:ID3、C4.5和CART特征选择方式

1 前言

该文章主要目的是记录ID3、C4.5和CART特征选择方式,这里只对决策树进行简单介绍。

决策树(Decision Tree)算法是一种有监督学习算法,它利用分类的思想,根据数据的特征构建数学模型,从而达到数据的筛选和决策的目标。它的重点是将看似无序、杂乱的已知数据,通过某种技术手段转化成可以预测未知数据的树状模型。每一条从根节点(对最终分类结果贡献最大的属性)到叶子节点(最终分类结果)的路径都代表一条决策的规则。

在预测时,从根节点出发,根据特征实际值,转移至某个子节点,直至叶子节点,从而完成决策。

在决策树构建的过程中,首先由所有的数据构成根节点,根据某种策略对某个特征进行划分,数据集被分割成若干份,每一份构成一个子节点。进而对子节点继续划分,直至决策树生成完毕。

常用的决策树构建算法有ID3、C4.5和CART等,它们之间关键区别是用于划分数据集的特征的选择策略不同,以下对其策略进行介绍。

2 ID3

ID3算法使用信息增益指导决策树的划分。

首先介绍概念: 。熵表示随机变量不确定性的度量。先给出公式:
I n f o ( Y ) = − ∑ y p ( y ) log ⁡ p ( y ) Info(Y)=-\sum_{y}{p(y)\log{p(y)}} Info(Y)=−∑yp(y)logp(y)

对于决策树中的某一个节点,可以通过上述公式计算熵,其中 Y Y Y表示类别, y y y表示具体的类别值。熵越小越好。
信息增益 表示特征 A A A使得类Y的不确定性减小的程度。公式如下:
G a i n ( D , A ) = I n f o ( D ) − I n f o ( D , A ) Gain(D,A)=Info(D)-Info(D,A) Gain(D,A)=Info(D)−Info(D,A)

D是数据集, A A A表示被划分的特征。 I n f o ( D ) Info(D) Info(D)表示某个节点的熵, I n f o ( X , D ) Info(X,D) Info(X,D)表示当前节点按照 A A A划分之后,得到的子节点的熵的加权和。
I n f o ( D , A ) = ∑ a ∣ D A = a ∣ ∣ D ∣ I n f o ( D A = a ) Info(D,A)=\sum_{a}{\frac{|D_{A=a}|}{|D|}Info(D_{A=a})} Info(D,A)=∑a∣D∣∣DA=a∣Info(DA=a)
D A = a D_{A=a} DA=a表示 A A A为a的样本组成的子节点,权重是 D A = a D_{A=a} DA=a的样本数量与 D D D的样本数量的比值。

每次划分,计算每个特征的 G a i n ( D , A ) Gain(D,A) Gain(D,A),选择 G a i n ( D , A ) Gain(D,A) Gain(D,A)最大的特征划分数据集。

3 C4.5

C4.5相比于ID3的主要区别是使用信息增益率 替代信息增益。信息增益率是信息增益与自身熵 I V ( D , A ) IV(D,A) IV(D,A)的比值。
G a i n _ r a t i o ( D , A ) = G a i n ( D , A ) I V ( D , A ) Gain\_ratio(D,A)=\frac{Gain(D,A)}{IV(D,A)} Gain_ratio(D,A)=IV(D,A)Gain(D,A)

自身熵表示当前节点划分的程度,划分的子节点越少,越均匀,自身熵越小,信息增益率越大。
I V ( D , A ) = − ∑ a ∣ D A = a ∣ ∣ D ∣ log ⁡ ∣ D A = a ∣ ∣ D ∣ IV(D,A)=-\sum_a{\frac{|D_{A=a}|}{|D|}\log{\frac{|D_{A=a}|}{|D|}}} IV(D,A)=−∑a∣D∣∣DA=a∣log∣D∣∣DA=a∣

每次划分,计算每个特征的信息增益率,选择信息增益率最大的特征划分数据集。

4 CART

相比于上面的方法,CART使用基尼(Gini)指数 选择特征。

基尼(Gini)指数使用 p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1−p(y))替代 p ( y ) log ⁡ p ( y ) p(y)\log{p(y)} p(y)logp(y),公式如下:
G i n i ( D ) = ∑ i p ( y ) ( 1 − p ( y ) ) = 1 − ∑ i p 2 ( y ) Gini(D)=\sum_{i}p(y)(1-p(y))=1-\sum_i{p^2(y)} Gini(D)=∑ip(y)(1−p(y))=1−∑ip2(y)

做这个替代有什么影响呢。可以看一下图像。
p ( y ) log ⁡ p ( y ) p(y)\log{p(y)} p(y)logp(y)为:

p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1−p(y))为:

可以看到 p ( y ) log ⁡ p ( y ) p(y)\log{p(y)} p(y)logp(y)图像比较倾斜,而 p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1−p(y))比较对称,在0.5取到最大值。一个类别准确率为0.5是最具不确定性的,也就是最差的,所以从图像上看明显 p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1−p(y))更符合目标。

D根据特征A被划分为多个子结点后,得到的子节点的基尼(Gini)指数的加权和。
G i n i ( D , A ) = ∑ a ∣ D A = a ∣ ∣ D ∣ G i n i ( D A = a ) Gini(D,A)=\sum_{a}{\frac{|D_{A=a}|}{|D|}Gini(D_{A=a})} Gini(D,A)=∑a∣D∣∣DA=a∣Gini(DA=a)

每次划分,计算每个特征的 G i n i ( D , A ) Gini(D,A) Gini(D,A),选择 G i n i ( D , A ) Gini(D,A) Gini(D,A)最大的特征划分数据集。

相关推荐
格图素书23 分钟前
数学建模算法案例精讲500篇-【数学建模】DBSCAN聚类算法
算法·数据挖掘·聚类
DashVector1 小时前
向量检索服务 DashVector产品计费
数据库·数据仓库·人工智能·算法·向量检索
AI纪元故事会1 小时前
【计算机视觉目标检测算法对比:R-CNN、YOLO与SSD全面解析】
人工智能·算法·目标检测·计算机视觉
夏鹏今天学习了吗1 小时前
【LeetCode热题100(59/100)】分割回文串
算法·leetcode·深度优先
卡提西亚1 小时前
C++笔记-10-循环语句
c++·笔记·算法
还是码字踏实1 小时前
基础数据结构之数组的双指针技巧之对撞指针(两端向中间):三数之和(LeetCode 15 中等题)
数据结构·算法·leetcode·双指针·对撞指针
Khunkin2 小时前
牛顿迭代法:用几何直觉理解方程求根
机器学习
音视频牛哥3 小时前
超清≠清晰:视频系统里的分辨率陷阱与秩序真相
人工智能·机器学习·计算机视觉·音视频·大牛直播sdk·rtsp播放器rtmp播放器·smartmediakit
Coovally AI模型快速验证4 小时前
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
人工智能·深度学习·算法·机器学习·目标跟踪·语言模型
电院工程师4 小时前
SIMON64/128算法Verilog流水线实现(附Python实现)
python·嵌入式硬件·算法·密码学