机器学习西瓜书之决策树

目录

算法原理

从逻辑角度:通过一系列if-else语句进行多重判断,比如白富美的判断条件("白""富""美")。

从几何角度:根据定义的标准进行样本空间的划分。

以二分类问题为例,我们希望通过一系列的条件进行分类。

以下是算法原理的伪代码图:

比较形象的图:

输入中的训练集包含了很多样本集合,每一个样本中又有很多属性,对应伪代码中的 x 1 x_1 x1和 y 1 y_1 y1等;属性集则代表用于判断样本应该归到哪一类的判断准则,在判断西瓜的例子中就是色泽、大小这种抽象性质。

剪枝处理

目的:为了防止模型在训练的过程中将自己的一些特征当成了所有模型都会有的特征,手动将一些分支去掉,减少分支和过拟合的操作。

  • 预剪枝操作:根据经验判断事先将一些用于判断的分支剪掉

  • 后剪枝操作:用剪去一些分支作为实验,判断最后的结果,然后判断要不要剪枝。

比较形象的一幅图:

连续值处理

上面分析的是离散情况下的处理,但是现实生活中更多见的是连续值的处理。

对于连续值,用下面公式进行划分

缺失值处理

多变量决策树

个人感觉这个图非常形象表示了多变量决策树,相较于单变量决策树的线性判别,多变量分类目的是实现用光滑的曲线实现分类。

相关推荐
荔枝吻42 分钟前
【AI总结】Git vs GitHub vs GitLab:深度解析三者联系与核心区别
人工智能·git·github
Jamie201901061 小时前
高档宠物食品对宠物的健康益处有哪些?
大数据·人工智能
蓝婷儿1 小时前
Python 机器学习核心入门与实战进阶 Day 2 - KNN(K-近邻算法)分类实战与调参
python·机器学习·近邻算法
云卓SKYDROID1 小时前
无人机载重模块技术要点分析
人工智能·无人机·科普·高科技·云卓科技
云卓SKYDROID1 小时前
无人机RTK技术要点与难点分析
人工智能·无人机·科普·高科技·云卓科技
麻雀无能为力2 小时前
CAU数据挖掘 支持向量机
人工智能·支持向量机·数据挖掘·中国农业大学计算机
智能汽车人2 小时前
Robot---能打羽毛球的机器人
人工智能·机器人·强化学习
埃菲尔铁塔_CV算法2 小时前
基于 TOF 图像高频信息恢复 RGB 图像的原理、应用与实现
人工智能·深度学习·数码相机·算法·目标检测·计算机视觉
ζั͡山 ั͡有扶苏 ั͡✾2 小时前
AI辅助编程工具对比分析:Cursor、Copilot及其他主流选择
人工智能·copilot·cursor
东临碣石822 小时前
【AI论文】数学推理能否提升大型语言模型(LLM)的通用能力?——探究大型语言模型推理能力的可迁移性
人工智能·语言模型·自然语言处理