决策树学习

1. 背景

DT决策树是一种基本的分类与回归方法,其学习时,利用训练数据,根据损失函数最小化原则建立DT模型。

分类DT主要优点:模型具有可读性,分类速度快。

由DT树的根结点到叶结点的每一条路径构建一条规则,即组合特征 ,路径上内部结点

的特征对应着规则的条件,而叶结点的类对应着规则的结论。这些路径互斥且完备。

DT学习通常包括3个步骤:特征选择、DT的生成与DT的修剪。DT的生成只考虑局部最优,而DT的剪枝则考虑全局最优。

DT学习是由训练数据集估计条件概率模型,其损失函数通常是正则化的极大似然函数,其策略是损失函数为目标函数的最小化。

2. 特征选择

特征选择在于选取对训练数据具有分类能力的特征,这样可以提高DT学习的效率。通常特征选择的准则是信息增益或信息增益比。

2.1 熵

随机变量X的熵定义为 (对数以2为底时,熵的单位叫bit;以e为底时,熵的单位叫nat)。

其中 ,i=1,2,...,n

熵只依赖于X的分布,与X的取值无关,且

(1)ID3算法;

(2)C4.5算法;

(3)CART算法;

3. DT的生成

4. DT的剪枝

相关推荐
光影少年2 分钟前
angular生态及学习路线
前端·学习·angular.js
学Linux的语莫3 小时前
机器学习数据处理
java·算法·机器学习
逆小舟4 小时前
【C/C++】指针
c语言·c++·笔记·学习
earthzhang20214 小时前
【1007】计算(a+b)×c的值
c语言·开发语言·数据结构·算法·青少年编程
武文斌774 小时前
项目学习总结:LVGL图形参数动态变化、开发板的GDB调试、sqlite3移植、MQTT协议、心跳包
linux·开发语言·网络·arm开发·数据库·嵌入式硬件·学习
递归不收敛5 小时前
吴恩达机器学习课程(PyTorch适配)学习笔记:1.3 特征工程与模型优化
pytorch·学习·机器学习
kunge1v55 小时前
学习爬虫第四天:多任务爬虫
爬虫·python·学习·beautifulsoup
哲Zheᗜe༘5 小时前
了解学习MySQL数据库基础
数据库·学习·mysql
2301_803554525 小时前
C++联合体(Union)详解:与结构体的区别、联系与深度解析
java·c++·算法
sali-tec6 小时前
C# 基于halcon的视觉工作流-章42-手动识别文本
开发语言·人工智能·算法·计算机视觉·c#·ocr