决策树学习

1. 背景

DT决策树是一种基本的分类与回归方法,其学习时,利用训练数据,根据损失函数最小化原则建立DT模型。

分类DT主要优点:模型具有可读性,分类速度快。

由DT树的根结点到叶结点的每一条路径构建一条规则,即组合特征 ,路径上内部结点

的特征对应着规则的条件,而叶结点的类对应着规则的结论。这些路径互斥且完备。

DT学习通常包括3个步骤:特征选择、DT的生成与DT的修剪。DT的生成只考虑局部最优,而DT的剪枝则考虑全局最优。

DT学习是由训练数据集估计条件概率模型,其损失函数通常是正则化的极大似然函数,其策略是损失函数为目标函数的最小化。

2. 特征选择

特征选择在于选取对训练数据具有分类能力的特征,这样可以提高DT学习的效率。通常特征选择的准则是信息增益或信息增益比。

2.1 熵

随机变量X的熵定义为 (对数以2为底时,熵的单位叫bit;以e为底时,熵的单位叫nat)。

其中 ,i=1,2,...,n

熵只依赖于X的分布,与X的取值无关,且

(1)ID3算法;

(2)C4.5算法;

(3)CART算法;

3. DT的生成

4. DT的剪枝

相关推荐
DKPT26 分钟前
Java桥接模式实现方式与测试方法
java·笔记·学习·设计模式·桥接模式
大千AI助手2 小时前
DTW模版匹配:弹性对齐的时间序列相似度度量算法
人工智能·算法·机器学习·数据挖掘·模版匹配·dtw模版匹配
好好研究3 小时前
学习栈和队列的插入和删除操作
数据结构·学习
YuTaoShao4 小时前
【LeetCode 热题 100】48. 旋转图像——转置+水平翻转
java·算法·leetcode·职场和发展
新中地GIS开发老师4 小时前
新发布:26考研院校和专业大纲
学习·考研·arcgis·大学生·遥感·gis开发·地理信息科学
生态遥感监测笔记4 小时前
GEE利用已有土地利用数据选取样本点并进行分类
人工智能·算法·机器学习·分类·数据挖掘
SH11HF5 小时前
小菜狗的云计算之旅,学习了解rsync+sersync实现数据实时同步(详细操作步骤)
学习·云计算
Tony沈哲5 小时前
macOS 上为 Compose Desktop 构建跨架构图像处理 dylib:OpenCV + libraw + libheif 实践指南
opencv·算法
Frank学习路上5 小时前
【IOS】XCode创建firstapp并运行(成为IOS开发者)
开发语言·学习·ios·cocoa·xcode