决策树 ID3 算法

ID3 算法

ID3 算法

  • ID3 算法最早是由罗斯昆 (J.Ross Quinlan) 于1975年提出的一种决策树构建算法,算法的核心是"信息熵",期望信息越小,信息熵越大,样本纯度越低。。
  • ID3 算法是以信息论为基础,以信息增益为衡量标准,从而实现对数据的归纳分类
  • ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。

ID3 算法步骤:

  • 1.初始化特征集合和数据集合
  • 2.计算数据集合信息和所有特征的条件熵,选择信息增益最大的特征作为当前决策节点
  • 3.更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不同分支的数据集合)
  • 4.重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。

信息熵

H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ log ⁡ 2 ∣ C k ∣ ∣ D ∣ H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log {2} \frac{\left|C{k}\right|}{|D|} H(D)=−k=1∑K∣D∣∣Ck∣log2∣D∣∣Ck∣

K是类别,D是数据集, C k C_{k} Ck是类别K下的数据集

条件熵

H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) H(D | A)=\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right) H(D∣A)=i=1∑n∣D∣∣Di∣H(Di)

A是特征,i是特征取值

信息增益(ID3)

g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D, A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A)

特征选择的目的在于选取对训练数据能够分类的特征,关键是其准则

样本集合 D D D对特征 A A A的信息增益(ID3)

g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D, A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A)

其中, H ( D ) H(D) H(D)是数据集 D D D的熵, H ( D i ) H(D_i) H(Di)是数据集 D i D_i Di的熵, H ( D ∣ A ) H(D|A) H(D∣A)是数据集 D D D对特征 A A A的条件熵。 D i D_i Di是 D D D中特征 A A A取第 i i i个值的样本子集, C k C_k Ck是 D D D中属于第 k k k类的样本子集。 n n n是特征 A A A取 值的个数, K K K是类的个数。

ID3 算法缺点

ID3 没有剪枝策略,容易过拟合

信息增益准则对可取值数目较多的特征有所偏好,类似"编号"的特征其信息增益接近于 1

只能用于处理离散分布的特征没有考虑缺失值

相关推荐
牛客企业服务33 分钟前
2025年AI面试推荐榜单,数字化招聘转型优选
人工智能·python·算法·面试·职场和发展·金融·求职招聘
糖葫芦君1 小时前
Policy Gradient【强化学习的数学原理】
算法
BFT白芙堂2 小时前
睿尔曼系列机器人——以创新驱动未来,重塑智能协作新生态(上)
人工智能·机器学习·机器人·协作机器人·复合机器人·睿尔曼机器人
羊小猪~~2 小时前
【NLP入门系列五】中文文本分类案例
人工智能·深度学习·考研·机器学习·自然语言处理·分类·数据挖掘
李师兄说大模型2 小时前
KDD 2025 | 地理定位中的群体智能:一个多智能体大型视觉语言模型协同框架
人工智能·深度学习·机器学习·语言模型·自然语言处理·大模型·deepseek
向阳@向远方3 小时前
第二章 简单程序设计
开发语言·c++·算法
网安INF3 小时前
深层神经网络:原理与传播机制详解
人工智能·深度学习·神经网络·机器学习
github_czy4 小时前
RRF (Reciprocal Rank Fusion) 排序算法详解
算法·排序算法
许愿与你永世安宁4 小时前
力扣343 整数拆分
数据结构·算法·leetcode
爱coding的橙子4 小时前
每日算法刷题Day42 7.5:leetcode前缀和3道题,用时2h
算法·leetcode·职场和发展