决策树学习-计算数据集的信息熵

复制代码
 #计算信息熵
def calEntro(dataset):
    dataset = np.array(dataset)
    data_len = len(dataset)
    #labelCount记录各类样本数据的数量
    labelCount = {}

    for row in dataset:
        cur_label = row[-1]
        if cur_label not in labelCount.keys():
            labelCount[cur_label] = 0
        labelCount[cur_label] += 1

    result = 0
    for key in labelCount.keys():
        prob = labelCount[key]/data_len
        result -= prob*math.log2(prob)
    return result

这段代码是用来计算数据集的信息熵的函数。信息熵是用来衡量数据集的不确定性,即数据集中包含的信息量。以下是对代码的解释:

  1. def calEntro(dataset)::定义了一个名为 calEntro 的函数,该函数接受一个数据集 dataset 作为输入参数。

  2. dataset = np.array(dataset):将输入的数据集转换为 NumPy 数组,以方便处理。

  3. data_len = len(dataset):获取数据集的长度,即数据集中样本的数量。

  4. labelCount = {}:初始化一个空字典 labelCount,用于记录数据集中各类别样本的数量。

  5. 遍历数据集中的每一行:

    • cur_label = row[-1]:获取当前样本的标签值(假设标签值在每行的最后一个位置)。
    • if cur_label not in labelCount.keys(): labelCount[cur_label] = 0:如果当前标签值不在 labelCount 字典的键中,则将其初始化为 0。
    • labelCount[cur_label] += 1:统计当前标签值在数据集中出现的次数。
  6. 计算信息熵:

    • result = 0:初始化信息熵的结果为 0。
    • 遍历 labelCount 字典中的每个键(类别):
      • prob = labelCount[key]/data_len:计算当前类别在数据集中的概率。
      • result -= prob*math.log2(prob):根据信息熵的公式,累加计算信息熵的值,其中 math.log2(prob) 表示以2为底的对数运算。
    • 最终返回计算得到的信息熵值 result

总体来说,这段代码的功能是通过遍历数据集中的标签值,计算数据集的信息熵,并返回信息熵的值。信息熵值越高,表示数据集的不确定性越大。

相关推荐
码农的神经元2 分钟前
2026年华中杯 A题:城市绿色物流配送调度
人工智能
小超同学你好3 分钟前
面向 LLM 的程序设计 14:RAG 与检索块进入上下文的工程化——分块、元数据、去重与注入模板
人工智能·语言模型
m0_738120723 分钟前
渗透基础知识ctfshow——Web应用安全与防护(完结:第八章)
前端·python·sql·安全·web安全·网络安全
ん贤6 分钟前
如何设计一个灵活、高效、安全的 AI 工具系统
人工智能·安全·go
OpenBayes8 分钟前
强化文字渲染与海报排版:百度开源文生图模型 ERNIE-Image-Turbo;告别大模型「遗忘」:微软 OpenMementos 上下文压缩训练数据集上线
人工智能·深度学习·百度·语言模型·微软·开源
雷帝木木9 分钟前
Python 并发编程高级技巧详解:从原理到实践
人工智能·python·深度学习·机器学习
devnullcoffee9 分钟前
亚马逊 Movers and Shakers 数据采集实战:用 Python + Scrape API 构建实时榜单监控系统
python·亚马逊数据采集·scrape api·亚马逊数据 api·pangolinfo api·amazon 爬虫工具·实时榜单监控
一个天蝎座 白勺 程序猿9 分钟前
AI入门踩坑实录:我换了3种语言才敢说,Python真的是入门唯一选择吗?
开发语言·人工智能·python·ai
Hui_AI72010 分钟前
保险条款NLP解析与知识图谱搭建:让AI准确理解保险产品的技术方案
开发语言·人工智能·python·算法·自然语言处理·开源·开源软件
雷帝木木10 分钟前
Python Web 框架对比与实战:Django vs Flask vs FastAPI
人工智能·python·深度学习·机器学习