机器学习西瓜书之决策树

目录

算法原理

从逻辑角度:通过一系列if-else语句进行多重判断,比如白富美的判断条件("白""富""美")。

从几何角度:根据定义的标准进行样本空间的划分。

以二分类问题为例,我们希望通过一系列的条件进行分类。

以下是算法原理的伪代码图:

比较形象的图:

输入中的训练集包含了很多样本集合,每一个样本中又有很多属性,对应伪代码中的 x 1 x_1 x1和 y 1 y_1 y1等;属性集则代表用于判断样本应该归到哪一类的判断准则,在判断西瓜的例子中就是色泽、大小这种抽象性质。

剪枝处理

目的:为了防止模型在训练的过程中将自己的一些特征当成了所有模型都会有的特征,手动将一些分支去掉,减少分支和过拟合的操作。

  • 预剪枝操作:根据经验判断事先将一些用于判断的分支剪掉

  • 后剪枝操作:用剪去一些分支作为实验,判断最后的结果,然后判断要不要剪枝。

比较形象的一幅图:

连续值处理

上面分析的是离散情况下的处理,但是现实生活中更多见的是连续值的处理。

对于连续值,用下面公式进行划分

缺失值处理

多变量决策树

个人感觉这个图非常形象表示了多变量决策树,相较于单变量决策树的线性判别,多变量分类目的是实现用光滑的曲线实现分类。

相关推荐
程序边界15 分钟前
AI时代如何高效学习Python:从零基础到项目实战de封神之路(2025升级版)
人工智能·python·学习
研梦非凡36 分钟前
探索3D空间的视觉基础模型系列
人工智能·深度学习·神经网络·机器学习·计算机视觉·3d
gooxi_hui40 分钟前
国鑫发布新一代「海擎」服务器 全面兼容国内外主流OAM GPU
人工智能
Gerlat小智1 小时前
【手撕机器学习 04】手撕线性回归:从“蒙眼下山”彻底理解梯度下降
人工智能·机器学习·线性回归
学术小白人1 小时前
IEEE出版 | 2026年计算智能与机器学习国际学术会议(CIML 2026)
人工智能·机器学习
jie*2 小时前
小杰深度学习(four)——神经网络可解释性、欠拟合、过拟合
人工智能·python·深度学习·神经网络·scikit-learn·matplotlib·sklearn
Miraitowa_cheems2 小时前
LeetCode算法日记 - Day 59: 字母大小写全排列、优美的排列
java·数据结构·算法·leetcode·决策树·职场和发展·深度优先
学习是生活的调味剂2 小时前
PEFT实战LoRA微调OpenAI Whisper 中文语音识别
人工智能·whisper·语音识别
weixin_418007603 小时前
使用opencv来识别信用卡的号码
人工智能·opencv·计算机视觉
荼蘼3 小时前
基于 OpenCV + 深度学习的实时人脸检测与年龄性别识别系统
人工智能·深度学习·opencv