机器学习西瓜书之决策树

目录

算法原理

从逻辑角度:通过一系列if-else语句进行多重判断,比如白富美的判断条件("白""富""美")。

从几何角度:根据定义的标准进行样本空间的划分。

以二分类问题为例,我们希望通过一系列的条件进行分类。

以下是算法原理的伪代码图:

比较形象的图:

输入中的训练集包含了很多样本集合,每一个样本中又有很多属性,对应伪代码中的 x 1 x_1 x1和 y 1 y_1 y1等;属性集则代表用于判断样本应该归到哪一类的判断准则,在判断西瓜的例子中就是色泽、大小这种抽象性质。

剪枝处理

目的:为了防止模型在训练的过程中将自己的一些特征当成了所有模型都会有的特征,手动将一些分支去掉,减少分支和过拟合的操作。

  • 预剪枝操作:根据经验判断事先将一些用于判断的分支剪掉

  • 后剪枝操作:用剪去一些分支作为实验,判断最后的结果,然后判断要不要剪枝。

比较形象的一幅图:

连续值处理

上面分析的是离散情况下的处理,但是现实生活中更多见的是连续值的处理。

对于连续值,用下面公式进行划分

缺失值处理

多变量决策树

个人感觉这个图非常形象表示了多变量决策树,相较于单变量决策树的线性判别,多变量分类目的是实现用光滑的曲线实现分类。

相关推荐
编程小白_正在努力中1 小时前
神经网络深度解析:从神经元到深度学习的进化之路
人工智能·深度学习·神经网络·机器学习
无风听海1 小时前
神经网络之经验风险最小化
人工智能·深度学习·神经网络
音视频牛哥1 小时前
轻量级RTSP服务的工程化设计与应用:从移动端到边缘设备的实时媒体架构
人工智能·计算机视觉·音视频·音视频开发·rtsp播放器·安卓rtsp服务器·安卓实现ipc功能
该用户已不存在2 小时前
在 Gemini CLI 中使用 Gemini 3 Pro 实操指南
人工智能·ai编程·gemini
东皇太星2 小时前
ResNet (2015)(卷积神经网络)
人工智能·神经网络·cnn
aircrushin2 小时前
TRAE SOLO 中国版,正式发布!AI 编程的 "Solo" 时代来了?
前端·人工智能
Java中文社群2 小时前
保姆级教程:3分钟带你轻松搭建N8N自动化平台!(内附视频)
人工智能·工作流引擎
是Yu欸3 小时前
DevUI MateChat 技术演进:UI 与逻辑解耦的声明式 AI 交互架构
前端·人工智能·ui·ai·前端框架·devui·metachat
我不是QI3 小时前
周志华《机器学习---西瓜书》 一
人工智能·python·机器学习·ai
H***99763 小时前
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
人工智能·深度学习·机器学习