【深度学习】交叉熵

**交叉熵(Cross-Entropy)**是信息论中的一个重要概念,也是在机器学习和深度学习中用于分类任务的常见损失函数。它衡量的是两个概率分布之间的差异,特别是模型的预测概率分布与真实分布的差异。

交叉熵最初是从信息论引入的,首先我们先来看一下什么是信息量,什么是熵,什么是相对熵。信息量 用于衡量一个事件发生所携带的信息。信息量用于衡量在一个不确定的环境中,某个事件发生时,能带来多少信息。信息量通常用比特(bit)来表示。对于一个发生概率为 p 的事件,其信息量定义为:

是一个系统中所有可能事件的不确定性或平均信息量的度量。它衡量的是整个系统的平均不确定性。当我们对系统的不确定性越大,熵值就越高。熵越大,表示系统的随机性或混乱程度越高。对于一个离散随机变量 X ,它的熵定义为:

**相对熵(Kullback-Leibler 散度,简称KL散度)**用于衡量两个概率分布之间的差异。它告诉我们,如果我们使用一个概率分布 q 来近似真实的概率分布 p,我们在信息上会有多少额外损失。KL散度越大,说明两个分布的差异越大。如果两个分布完全相同,则 KL 散度为0,表示我们没有任何信息损失。如果两个分布差异很大,则 KL 散度会较大,表示我们需要更多的额外信息来弥补近似分布和真实分布之间的差异。

根据类别数的不同,分为二元交叉熵和类别交叉熵:

相关推荐
七月shi人29 分钟前
【AI编程工具IDE/CLI/插件专栏】-国外IDE与Cursor能力对比
ide·人工智能·ai编程·代码助手
2zcode3 小时前
基于Matlab的深度学习智能行人检测与统计系统
人工智能·深度学习·目标跟踪
weixin_464078073 小时前
机器学习sklearn:过滤
人工智能·机器学习·sklearn
weixin_464078073 小时前
机器学习sklearn:降维
人工智能·机器学习·sklearn
数据与人工智能律师3 小时前
智能合约漏洞导致的损失,法律责任应如何分配
大数据·网络·人工智能·算法·区块链
张艾拉 Fun AI Everyday4 小时前
小宿科技:AI Agent 的卖铲人
人工智能·aigc·创业创新·ai-native
zhongqu_3dnest4 小时前
三维火灾调查重建:科技赋能,探寻真相
人工智能
飞哥数智坊4 小时前
AI编程实战:写作助手进化,Trae+Kimi-K2两小时搞定“带样式复制”
人工智能·trae
木枷4 小时前
c2rust使用
人工智能·物联网·edge
Nayuta4 小时前
【论文导读】OS-Genesis 基于自动探索构建 GUI 数据
人工智能·机器学习