【模型】5分钟了解决策树是一个什么模型

本站原创文章,转载请说明来自《老饼讲解-机器学习》[www.bbbdata.com(https://www.bbbdata.com/ml)

决策树模型是机器学习中不可不学的模型之一,本文简单直接地快速讲解决策树是什么,如何实现。

一、决策树模型

决策树一般包括ID3决策树,C4.5决策树与CART决策树。

ID3与C4.5决策树是基于熵的概念构建的决策树,现在已经用得相对较少,目前用得较多的是CART决策树。

CART决策树全称为Classification And Regression Tree,即分类与回归树。因此CART决策树既可以用来做分类,又可以用来做回归。

1.1.ID3决策树

ID3决策树是最早提出的决策树,它的变量是枚举变量,然后根据枚举值不断分枝决策,最终到达的叶子节点就是模型的预测结果。ID3决策树在构建时使用信息熵的来确定选择哪个变量进行构建。

1.2. CART决策树

CART决策树模型是一棵二叉树,如下:

CART决策树模型是一棵二叉树,会根据变量不断地进行判断,最后到达叶子节点时,节点上的类别(做回归时则是值)就是模型的预测结果。CART决策树在构建时一般使用GINI系数来确定选择哪个变量来构建。

CART决策树的详细构建流程可参考:【原理】CART决策树构建过程详细讲解

1.3. C4.5决策树

C4.5决策树可以认为是ID3决策树到CART决策树的过渡,即支持枚举变量,又支持连续变量。C4.5决策树使用信息增益比来确定选择哪个变量进行构建。

二、如何在python中构建一棵决策树

2.1. 数据说明

不妨以鸢尾花数据为例(即sk-learn中的iris数据)

鸢尾花数据共有150个样本,包括鸢尾花的四个特征与鸢尾花的类别,具体数据如下:

花萼长度 sepal length (cm) 、花萼宽度 sepal width (cm)

花瓣长度 petal length (cm) 、花瓣宽度 petal width (cm)

山鸢尾:0,杂色鸢尾:1,弗吉尼亚鸢尾:2

2.2. python中构建一棵CART决策树

下面使用python的sklearn包来构建一棵CART决策树,具体代码如下:

python 复制代码
from sklearn.datasets import load_iris
from sklearn import tree
#----------------数据准备--------------------
iris = load_iris()                                 # 加载数据
#---------------模型训练---------------------
clf = tree.DecisionTreeClassifier()                # sk-learn的决策树模型
clf = clf.fit(iris.data, iris.target)              # 用数据训练树模型构建()
r = tree.export_text(clf, feature_names=iris['feature_names'])

#---------------模型预测结果------------------
text_x = iris.data[[0,1,50,51,100,101], :]
pred_target_prob = clf.predict_proba(text_x)        # 预测类别概率
pred_target = clf.predict(text_x)                   # 预测类别

#---------------打印结果---------------------
print("\n===模型======")
print(r)
print("\n===测试数据:=====")
print(text_x)
print("\n===预测所属类别概率:=====")
print(pred_target_prob)
print("\n===预测所属类别:======")
print(pred_target)

运行结果如下:

构建好的决策树模型:

预测结果:

可以看到模型的预测结果是正确的。

三、如何将决策树可视化

要绘画出决策树的模型结构,可以使用graphviz 包,下面是一个代码示例与实现效果。

python 复制代码
from sklearn.datasets import load_iris
from sklearn import tree
import graphviz 
#----------------数据准备----------------------------
iris = load_iris()                          # 加载数据
#---------------模型训练----------------------------------
clf = tree.DecisionTreeClassifier()         # sk-learn的决策树模型
clf = clf.fit(iris.data, iris.target)       # 用数据训练树模型构建()
r = tree.export_text(clf, feature_names=iris['feature_names'])
dot_data = tree.export_graphviz(clf, out_file=None, 
                     feature_names=iris.feature_names,  
                     class_names=iris.target_names,  
                      filled=True, rounded=True,  
                      special_characters=True)  
graph = graphviz.Source(dot_data)  
graph                                    # 显示图形。(如果没显示,则需要独立运行这一句)
#graph.render("iris")                    # 将图形保存为iris.pdf文件。
#graph.view()                            # 直接打开pdf文件展示

运行后就可以打印出决策树的模型结构,如下:

上面的图比较丑,是graphviz 的默认图案。实际上graphviz 是非常强大的,可以按自己的喜爱设置得更加好看。

特别说明的是,软件中一般都只实现CART决策树, 如果要实现ID3或C4.5决策树,就需要自己仔细地去按原理重新实现了。


相关链接:

《老饼讲解-机器学习》:老饼讲解-机器学习教程-通俗易懂

《老饼讲解-神经网络》:老饼讲解-matlab神经网络-通俗易懂

《老饼讲解-神经网络》:老饼讲解-深度学习-通俗易懂

相关推荐
未来之窗软件服务10 小时前
自己写算法(九)网页数字动画函数——东方仙盟化神期
前端·javascript·算法·仙盟创梦ide·东方仙盟·东方仙盟算法
豐儀麟阁贵11 小时前
基本数据类型
java·算法
m0_6770343512 小时前
机器学习-推荐系统(下)
人工智能·机器学习
乐迪信息12 小时前
乐迪信息:基于AI算法的煤矿作业人员安全规范智能监测与预警系统
大数据·人工智能·算法·安全·视觉检测·推荐算法
Bugman.13 小时前
分类任务-三个重要网络模型
深度学习·机器学习·分类
hsjkdhs13 小时前
C++之多层继承、多源继承、菱形继承
开发语言·c++·算法
立志成为大牛的小牛13 小时前
数据结构——十七、线索二叉树找前驱与后继(王道408)
数据结构·笔记·学习·程序人生·考研·算法
星空下的曙光13 小时前
Node.js crypto模块所有 API 详解 + 常用 API + 使用场景
算法·node.js·哈希算法
天一生水water14 小时前
什么是时间序列互相关分析(CCF)
机器学习·时间序列
StarPrayers.15 小时前
旅行商问题(TSP)(2)(heuristics.py)(TSP 的两种贪心启发式算法实现)
前端·人工智能·python·算法·pycharm·启发式算法