【深度学习】交叉熵

**交叉熵(Cross-Entropy)**是信息论中的一个重要概念,也是在机器学习和深度学习中用于分类任务的常见损失函数。它衡量的是两个概率分布之间的差异,特别是模型的预测概率分布与真实分布的差异。

交叉熵最初是从信息论引入的,首先我们先来看一下什么是信息量,什么是熵,什么是相对熵。信息量 用于衡量一个事件发生所携带的信息。信息量用于衡量在一个不确定的环境中,某个事件发生时,能带来多少信息。信息量通常用比特(bit)来表示。对于一个发生概率为 p 的事件,其信息量定义为:

是一个系统中所有可能事件的不确定性或平均信息量的度量。它衡量的是整个系统的平均不确定性。当我们对系统的不确定性越大,熵值就越高。熵越大,表示系统的随机性或混乱程度越高。对于一个离散随机变量 X ,它的熵定义为:

**相对熵(Kullback-Leibler 散度,简称KL散度)**用于衡量两个概率分布之间的差异。它告诉我们,如果我们使用一个概率分布 q 来近似真实的概率分布 p,我们在信息上会有多少额外损失。KL散度越大,说明两个分布的差异越大。如果两个分布完全相同,则 KL 散度为0,表示我们没有任何信息损失。如果两个分布差异很大,则 KL 散度会较大,表示我们需要更多的额外信息来弥补近似分布和真实分布之间的差异。

根据类别数的不同,分为二元交叉熵和类别交叉熵:

相关推荐
RockHopper20253 小时前
语义操作:从“信息处理”走向“运行组织”——以显式业务语义重构企业软件的运行内核
人工智能·ai-native·语义驱动·语义操作
Chengbei113 小时前
AI赋能Chrome MCP × JS逆向Skill自动化JS逆向助力挖洞与绕过实战(小白也能学会)
javascript·人工智能·chrome·网络安全·自动化·系统安全·安全架构
甲维斯3 小时前
820亿Credits等于多少Tokens?
人工智能
Promise微笑3 小时前
GEO优化:官网建设的重要性,如何铸就数字信任与增长引擎
大数据·人工智能·深度学习
lucky_syq3 小时前
神经网络参数初始化详解
人工智能·深度学习·神经网络
2301_780029043 小时前
A Comprehensive Survey on Large Language Models--论文精读(下)
人工智能·语言模型·自然语言处理
UXbot3 小时前
初创公司如何选择合适的UI工具支撑快速迭代产品?
人工智能·低代码·ios·交互·原型模式
小a杰.3 小时前
Torchtitan NPU 框架 - PyTorch与NPU集成指南
人工智能·pytorch·python
热心不起来的市民小周3 小时前
100种动物矩形框和分割数据集
人工智能·计算机视觉·目标跟踪
Q2706810203 小时前
AI做的音乐,实际用着怎么样?短视频与商用视频的配乐选择思路
人工智能