决策树及其拓展 吴恩达课程

看到了个关于决策树很好的文章:链接

决策树

在所有可能的决策树中,选择一个在训练集上表现良好,并能很好的推广到新数据(即交叉验证集和测试集)的决策树。
参考文章


信息增益

信息增益越大,表示该特征对数据集划分所获得的"纯度提升"越大。所以信息增益可以用于决策树划分属性的选择,即选择信息增益最大 的属性。


关于信息增益的另一篇参考文章

构建决策树的过程

计算所有可能的信息增益,并选择最高的信息增益,根据选择的特征拆分数据集,并创建左右节点。继续递归调用以上拆分过程,直到达到阈值标准为止:

1.当某个节点的纯度为100%,即该节点的所有样本都属于一个类

2.当拆分节点后,导致树的深度超过最大深度

3.当拆分节点后,信息增益小于阈值时

4.当节点中的样本个数小于阈值时

参考文章

另一篇详细讲解构建决策树的文章

独热编码

独热编码用来解决 类别型数据的离散值问题

  • 优:独热编码解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用。它的值只有0和1,不同的类型存储在垂直的空间。
  • 缺:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。
    独热编码详细解说

连续值处理

吴恩达讲解视频里是设定阈值。

另一篇文章不一样的方法:离散化策略------二分法

决策树不仅可以用来分类,也可以用于回归问题(连续的值):

参考文章
分类树与回归树的区别

从根节点开始,一步一步划分,直到到达叶子节点,最后输出预测特征值

决策树集合

单个决策树可能会对数据的微小变化高度敏感,即鲁棒性(意思稳定性差)很差。所以使用多个决策树。

对每个决策树分别进行预测,最后统计结果,选择多数的结果作为最终预测结果。
参考文章

相关推荐
memcpy08 小时前
LeetCode 1208. 尽可能使字符串相等【不定长滑窗,字符串】1497
算法·leetcode·职场和发展
阿Y加油吧8 小时前
LeetCode 二叉树双王炸!二叉树展开为链表 + 前序 + 中序还原二叉树|小白递归一把过
算法·leetcode·链表
AI科技星8 小时前
全球AI信息场(信息网)基础理论与数学建模研究(乖乖数学)
开发语言·人工智能·线性代数·算法·机器学习·数学建模
仟濹8 小时前
【算法打卡day37(2026-04-04 周六)】DFS专项训练4-枚举专项训练 1-全部是蓝桥杯真题
算法·蓝桥杯·深度优先
汀、人工智能8 小时前
12 - 内置函数:Python的瑞士军刀
数据结构·算法·数据库架构·图论·python的瑞士军刀
DeepModel8 小时前
机器学习非线性降维:核PCA(Kernel PCA)
人工智能·机器学习
⊱⋛赫宇⋚⊰8 小时前
转专业数学
线性代数·机器学习·概率论
羊小猪~~9 小时前
LLM--微调(Adapters,Prompt,Prefix)
算法·ai·大模型·llm·prompt·adapters·prefix
未来之窗软件服务9 小时前
SenseVoicecpp ggml-hexagon.cpp大模型[AI人工智能(七十九)]—东方仙盟
人工智能·算法·仙盟创梦ide·东方仙盟
xiaoye-duck9 小时前
《算法题讲解指南:动态规划算法--子数组系列》--25.单词拆分,26.环绕字符串中唯一的子字符串
c++·算法·动态规划