机器学习西瓜书之决策树

目录

算法原理

从逻辑角度:通过一系列if-else语句进行多重判断,比如白富美的判断条件("白""富""美")。

从几何角度:根据定义的标准进行样本空间的划分。

以二分类问题为例,我们希望通过一系列的条件进行分类。

以下是算法原理的伪代码图:

比较形象的图:

输入中的训练集包含了很多样本集合,每一个样本中又有很多属性,对应伪代码中的 x 1 x_1 x1和 y 1 y_1 y1等;属性集则代表用于判断样本应该归到哪一类的判断准则,在判断西瓜的例子中就是色泽、大小这种抽象性质。

剪枝处理

目的:为了防止模型在训练的过程中将自己的一些特征当成了所有模型都会有的特征,手动将一些分支去掉,减少分支和过拟合的操作。

  • 预剪枝操作:根据经验判断事先将一些用于判断的分支剪掉

  • 后剪枝操作:用剪去一些分支作为实验,判断最后的结果,然后判断要不要剪枝。

比较形象的一幅图:

连续值处理

上面分析的是离散情况下的处理,但是现实生活中更多见的是连续值的处理。

对于连续值,用下面公式进行划分

缺失值处理

多变量决策树

个人感觉这个图非常形象表示了多变量决策树,相较于单变量决策树的线性判别,多变量分类目的是实现用光滑的曲线实现分类。

相关推荐
DuoRuaiMiFa29 分钟前
ChatGPT全新功能Canvas上线:开启智能编程与写作新篇章
人工智能·chatgpt
DisonTangor32 分钟前
Windows 11将新增基于AI的搜索、生成式填充和其它AI功能
人工智能
soso196834 分钟前
【AI自然语言处理应用】通过API调用通义晓蜜CCAI-对话分析AIO应用
人工智能·自然语言·ccai
网安-搬运工37 分钟前
RAG再总结之如何使大模型更好使用外部数据:四个不同层级及查询-文档对齐策略
人工智能·自然语言处理·大模型·llm·大语言模型·ai大模型·rag
大模型八哥38 分钟前
大模型扫盲系列——大模型实用技术介绍(上)
人工智能·程序人生·ai·大模型·llm·llama·ai大模型
被制作时长两年半的个人练习生1 小时前
【pytorch】权重为0的情况
人工智能·pytorch·深度学习
Elastic 中国社区官方博客1 小时前
使用 Vertex AI Gemini 模型和 Elasticsearch Playground 快速创建 RAG 应用程序
大数据·人工智能·elasticsearch·搜索引擎·全文检索
说私域2 小时前
地理定位营销与开源AI智能名片O2O商城小程序的融合与发展
人工智能·小程序
Q_w77422 小时前
计算机视觉小目标检测模型
人工智能·目标检测·计算机视觉