3.5 认识决策树

3.5 认识决策树

3.5.1 认识决策树

如何高效的进行决策? 特征的先后顺序

3.5.2 决策树分类原理详解

已知有四个特征,预测 是否贷款给某个人。

先看房子,再看工作,是否贷款。

年龄,信贷情况,工作,是否贷款

1 原理

信息熵,信息增益等。

需要用到信息论的知识!问题:通过例子引入信息熵

信息论基础:

1)信息

香农:消除随机不定性的东西

小明 年龄 "我今年18岁" 是信息

小华 "小明明年19岁" (不是信息,因为我已经知道小明18岁)

2) 信息的衡量 ------信息量------ 信息熵

2 信息熵的定义

H的专业术语之为信息熵,单位为比特 bit

3 决策树的划分依据之一信息增益

4 决策树的划分依据------信息增益

当然决策树的原理不止信息增益这一种,还有其他方法,但是原理都类似,我们就不去举例计算。

3.5.3 决策树API

3.5.4 案例:泰坦尼克号乘客生存预测

流程分析:

特征值 目标值

1)获取数据

2)数据处理

缺失值处理

特征值------>字典类型

3)准备好特征值 目标值

4)划分数据集

5)特征工程:字典特征抽取

6)决策树预估器流程

7)模型评估

3.5.5 决策树可视化

1 保存树的结构到dot文件

3.5.6 决策树总结

优点:

简单的理解和解释,树木可视化

缺点:

决策树学习者可以创建不能很好推广数据的过于复杂的树,这被称为过拟合。

改进:

减枝cart算法(决策树API当中已经实现,随意森林参数调优有相关介绍)

随机森林

注意:企业重要决策,由于决策树很好的分析能力,在决策过程中应用较多,可以选择特征

3.5.7 总结

信息熵,信息增益的计算

DecisonTreeClassifier进行决策树的划分

export_graphviz导出到dot文件

相关推荐
恣艺31 分钟前
Python 实用工具与机器学习入门:Rich + Tqdm + Faker + Schedule + Scikit-learn
python·机器学习·scikit-learn
为何创造硅基生物31 分钟前
C 语言 typedef 结构体私有化
c语言·开发语言·算法
yzx99101334 分钟前
递归算法入门:像俄罗斯套娃一样思考
人工智能·算法
心中有国也有家39 分钟前
从零上手 CANN 学习中心:像逛技术便利店一样学昇腾
学习·算法·开源
隐层漫游者1 小时前
2026年了,你还只会调包?手把手教你K-Means、随机森林、XGBoost与朴素贝叶斯,全网最硬核机器学习实战指南!
机器学习
oo哦哦1 小时前
搜索矩阵系统的最短路密码:用Dijkstra算法和网络流理论,解释为什么你做了1000个关键词,流量还不如别人30个
网络·算法·矩阵
Matlab程序猿小助手1 小时前
【MATLAB源码-第319期】基于matlab的帝王蝶优化算法(MBO)无人机三维路径规划,输出做短路径图和适应度曲线.
开发语言·算法·matlab
l1t1 小时前
DeepSeek总结的在 DuckDB 中试驾 Lance 数据湖仓格式
数据库·人工智能·机器学习·duckdb
图码1 小时前
二分查找进阶:如何在有序数组中快速找到Upper Bound?
数据结构·算法·面试·分类·柔性数组
试剂界的爱马仕1 小时前
《古董局·终局5:潮生》第 2 章:镜子的天赋
大数据·人工智能·算法