C2-4.2.2 决策树-纯度+信息熵+信息增益

C2-4.2.2 决策树-纯度+信息熵+信息增益

1、首先了解他的应用背景------决策树

其实说白了,就是一个二叉树

2、纯度

我们举一个买黄金的例子吧!黄金有999 和 9999 。 他们是有区别的,代表着黄金的纯度(相对杂质而言 ),那在决策树中------我们也引入了"纯度 "这一概念。如果结果集中,全是这一类的,那么我们说"vary pure"。如果结果集中有6个,但是3个是一个类别,那么我们说"not pure",把除这三个外的东西叫做"杂质"

2.1 纯度简述

  • 如果一个结果集(经过 一次 或多次 二叉树判别),都是 猫 / 都是 非猫,那么就说这个结果集 very pure

  • 如果一个结果集 既有 猫 又有 非猫,那么就是not pure 。但是not pure 也分级别 。------引出我们计算的公式

  • P1:是 猫的纯度。

    • 当一组数据有6个,猫有0个时,熵为0,纯度最高

    • 当一组数据有6个,猫有3个时,熵为0.92,纯度不好

      ...

3、信息熵(entropy )

那买黄金,有专业的机器来判别我们的黄金的纯度,那在决策树中的结果集中,如何判别纯度呢 / 判别纯度的标准??------这就引出了**"信息熵"** 的定义。

3.1 信息熵的定义

In Machine Learning, entropy ※※measures the level of disorder or uncertainty in a given dataset or system . It is a metric that quantifies the amount of information in a dataset, and it is commonly used to evaluate the quality of a model and its ability to make accurate predictions.

※A higher entropy value indicates a more heterogeneous dataset with diverse classes, while a lower entropy signifies a more pure and homogeneous subset of data. Decision tree models can use entropy to determine the best splits to make informed decisions and build accurate predictive models.

  • 【※※※总结】:
    • 信息熵是用来衡量 给出的数据集中 数据的纯度的
    • 信息熵越小,数据就越纯。
    • 通常用在机器学习分类的情况下

3.2 信息熵公式

4、信息增益(Information Gain)

4.1、信息增益概念:

Information gain calculates the reduction in entropy or surprise from transforming a dataset in some way.

It is commonly used in the construction of decision trees from a training dataset, by evaluating the information gain for each variable, and selecting the variable that maximizes the information gain , which in turn minimizes the entropy and best splits the dataset into groups for effective classification.

【※※※总结】:

  • 信息增益:是计算信息熵的减少量/看做减少速率的
  • 被广泛用在 决策树的节点选择上:对每一个可选的节点 进行信息增益判断,选择结果最大的作为节点------才能产生最小的信息熵结果
  • 信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。

4.2 信息增益公式:

相关推荐
小江的记录本5 分钟前
【分布式】分布式核心组件——分布式限流:固定窗口、滑动窗口、漏桶、令牌桶算法,网关层/服务层限流实现
java·分布式·后端·python·算法·安全·面试
MediaTea6 分钟前
Scikit-learn:特征矩阵与目标变量
人工智能·python·机器学习·矩阵·scikit-learn
不懂的浪漫7 分钟前
一次设备映射缓存设计:用多索引 Map 把高频查询从遍历变成直接命中
java·算法·spring·缓存
郝学胜-神的一滴9 分钟前
深度学习入门:极简神经网络搭建与参数计算全攻略
人工智能·pytorch·python·深度学习·神经网络·机器学习
apollowing12 分钟前
启发式算法WebApp实验室:从搜索策略到群体智能的能力进阶(三十)
算法·启发式算法·web app
田野追逐星光15 分钟前
C++继承 -- 讲解超详细(上)
c++·算法
迷藏49416 分钟前
**绿色AI:用Python构建节能型机器学习模型的实践与优化策略**在人工智能飞速发展的今天,模型训练和
java·人工智能·python·机器学习
高洁0123 分钟前
计算机视觉实战:图像去噪模型训练与应用
人工智能·python·深度学习·机器学习·transformer
源码之家23 分钟前
计算机毕业设计:Python电商农产品销售数据分析可视化系统 Flask框架 数据分析 可视化 机器学习 数据挖掘 大数据 大模型(建议收藏)✅
大数据·python·机器学习·数据挖掘·数据分析·flask·课程设计
ZPC821024 分钟前
ROS2 共享内存 SHM > UDP 速度
人工智能·算法·计算机视觉·机器人