【深度学习】交叉熵

**交叉熵(Cross-Entropy)**是信息论中的一个重要概念,也是在机器学习和深度学习中用于分类任务的常见损失函数。它衡量的是两个概率分布之间的差异,特别是模型的预测概率分布与真实分布的差异。

交叉熵最初是从信息论引入的,首先我们先来看一下什么是信息量,什么是熵,什么是相对熵。信息量 用于衡量一个事件发生所携带的信息。信息量用于衡量在一个不确定的环境中,某个事件发生时,能带来多少信息。信息量通常用比特(bit)来表示。对于一个发生概率为 p 的事件,其信息量定义为:

是一个系统中所有可能事件的不确定性或平均信息量的度量。它衡量的是整个系统的平均不确定性。当我们对系统的不确定性越大,熵值就越高。熵越大,表示系统的随机性或混乱程度越高。对于一个离散随机变量 X ,它的熵定义为:

**相对熵(Kullback-Leibler 散度,简称KL散度)**用于衡量两个概率分布之间的差异。它告诉我们,如果我们使用一个概率分布 q 来近似真实的概率分布 p,我们在信息上会有多少额外损失。KL散度越大,说明两个分布的差异越大。如果两个分布完全相同,则 KL 散度为0,表示我们没有任何信息损失。如果两个分布差异很大,则 KL 散度会较大,表示我们需要更多的额外信息来弥补近似分布和真实分布之间的差异。

根据类别数的不同,分为二元交叉熵和类别交叉熵:

相关推荐
程序小旭1 小时前
MobileNetV2: Inverted Residuals and Linear Bottlenecks
深度学习·cv·mobilenetv2
哪 吒1 小时前
【AIGC】OpenAI Canvas发布,代码能力秒杀Copilot,360°碾压Claude
人工智能·aigc·copilot
卷心菜小温2 小时前
【大模型】RMS Normalization原理及实现
人工智能·语言模型·nlp·llama
Sjmanman2 小时前
文献阅读Prov-GigaPath模型--相关知识点罗列
深度学习·医学数据
春末的南方城市2 小时前
ScribbleDiff:使用涂鸦引导扩散,实现无需训练的文本到图像生成
人工智能·计算机视觉·stable diffusion·aigc·图像生成
AI服务老曹2 小时前
掌握精准客流监测数据,及时传达应急事件信息的智慧园区开源了
大数据·人工智能·开源·智慧城市·能源
scdifsn3 小时前
动手学深度学习9.3. 深度循环神经网络-笔记&练习(PyTorch)
笔记·rnn·深度学习·深度循环神经网络
绎岚科技3 小时前
深度学习中的结构化概率模型 - 推断和近似推断篇
人工智能·深度学习·算法·机器学习
hunteritself3 小时前
OpenAI为ChatGPT推出Canvas功能,对标Claude Artifacts!
人工智能·深度学习·机器学习·chatgpt·语音识别