四、分类算法 - 决策树

目录

1、认识决策树

2、决策树分类原理详解

3、信息论基础

[3.1 信息](#3.1 信息)

[3.2 信息的衡量 - 信息量 - 信息熵](#3.2 信息的衡量 - 信息量 - 信息熵)

[3.3 决策树划分的依据 - 信息增益](#3.3 决策树划分的依据 - 信息增益)

[3.4 案例](#3.4 案例)

4、决策树API

5、案例:用决策树对鸢尾花进行分类

6、决策树可视化

7、总结

8、案例:泰坦尼克号乘客生存预测

[8.1 流程分析](#8.1 流程分析)


  1. sklearn转换器和估算器
  2. KNN算法
  3. 模型选择和调优
  4. 朴素贝叶斯算法
  5. 决策树
  6. 随机森林

1、认识决策树

如何高效的进行决策?

特征的先后顺序

2、决策树分类原理详解

已知 四个特征值 预测 是否贷款给某个人

  • 先看房子,再工作 -> 是否贷款 只看了两个特征
  • 年龄,信贷情况,工作 看了三个特征

3、信息论基础

3.1 信息

香农:消除随机不定性的东西

  • 小明 年龄"我今年18岁"- 信息
  • 小华"小明明年19岁"-不是信息

3.2 信息的衡量 - 信息量 - 信息熵

3.3 决策树划分的依据 - 信息增益

3.4 案例

4、决策树API

5、案例:用决策树对鸢尾花进行分类

python 复制代码
def decision_iris():
    # 用决策树对鸢尾花进行分类
    # 1、获取数据集
    iris = load_iris()
    # 2、划分数据集
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=22)
    # 3、决策树预估器
    estimator = DecisionTreeClassifier(criterion="entropy")
    estimator.fit(x_train,y_train)
    # 4、模型评估
    # 方法1 :直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)
    # 方法2:计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为:\n", score)
    return None

if __name__ == "__main__":   
    # 代码4:用决策树对鸢尾花进行分类
    decision_iris()

6、决策树可视化

  1. 导入 from sklearn.tree import DecisionTreeClassifier,export_graphviz
  2. 可视化决策树 export_graphviz(estimator,out_file="iris_tree.dot")
  3. 生存.dot文件,打开复制到网址http://webgraphviz.com/
python 复制代码
from sklearn.datasets import load_iris, fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier,export_graphviz


def decision_iris():
    # 用决策树对鸢尾花进行分类
    # 1、获取数据集
    iris = load_iris()
    # 2、划分数据集
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=22)
    # 3、决策树预估器
    estimator = DecisionTreeClassifier(criterion="entropy")
    estimator.fit(x_train,y_train)
    # 4、模型评估
    # 方法1 :直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)
    # 方法2:计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为:\n", score)
    # 可视化决策树
    export_graphviz(estimator,out_file="iris_tree.dot",feature_names=iris.feature_names)
    return None

if __name__ == "__main__":    
    # 代码4:用决策树对鸢尾花进行分类
    decision_iris()

7、总结

8、案例:泰坦尼克号乘客生存预测

8.1 流程分析

  • 获取数据
  • 数据处理
  1. 缺失值处理
  2. 特征值 -> 字典类型
  • 准备好特征值、目标值
  • 划分数据集
  • 特征工程:字典特征抽取
  • 决策树预估器流程
  • 模型评估
相关推荐
技术无疆1 小时前
【Python】Streamlit:为数据科学与机器学习打造的简易应用框架
开发语言·人工智能·python·深度学习·神经网络·机器学习·数据挖掘
羊小猪~~1 小时前
机器学习/数据分析--用通俗语言讲解时间序列自回归(AR)模型,并用其预测天气,拟合度98%+
人工智能·python·机器学习·数据挖掘·数据分析·回归·时序数据库
凭栏落花侧7 小时前
决策树:简单易懂的预测模型
人工智能·算法·决策树·机器学习·信息可视化·数据挖掘·数据分析
wei_shuo8 小时前
偏标记学习+图像分类(论文复现)
学习·分类·数据挖掘
bin91538 小时前
【EXCEL数据处理】000010 案列 EXCEL文本型和常规型转换。使用的软件是微软的Excel操作的。处理数据的目的是让数据更直观的显示出来,方便查看。
大数据·数据库·信息可视化·数据挖掘·数据分析·excel·数据可视化
Hiweir ·16 小时前
NLP任务之文本分类(情感分析)
人工智能·自然语言处理·分类·huggingface
C7211BA1 天前
CNN模型对CIFAR-10中的图像进行分类
人工智能·分类·cnn
技术无疆1 天前
【Python】Arrow使用指南:轻松管理日期与时间
开发语言·人工智能·python·深度学习·机器学习·数据挖掘·python3.11
bin91532 天前
【EXCEL数据处理】000014 案例 EXCEL分类汇总、定位和创建组。附多个操作案例。
信息可视化·数据挖掘·数据分析·excel·数据可视化·数据图表·excel 数据分析