【学习一下】深入理解交叉熵

机器学习(尤其是分类问题)中,交叉熵损失(CrossEntropyLoss)是最常见的损失函数之一:
Loss=−∑c=1Myclog⁡(y^c) Loss = - \sum_{c=1}^{M}y_c\log(\hat{y}_c) Loss=−c=1∑Myclog(y^c)

本文详细总结一下这个公式是怎么来的,以及深入理解一下交叉熵的本质。

概率分布

根据随机变量的类型,概率分布有连续分布离散分布两大类。机器学习领域中,我们通常讨论的是离散分布,比如分类器输出的每个类别的概率:

Class 0 1 2 3 4
Probability 0.15 0.5 0.25 0.1 0.0

信息

在信息论中,信息 的本质是消除不确定。一个事件发生的概率越小,它发生时带来的信息量就越大:

事件 概率 信息量
"太阳从东边升起" ≈1.0 几乎为0(没什么信息)
"明天会下雨"(干旱地区) 0.01 很大(很有信息)
"抛硬币正面朝上" 0.5 中等

自信息(Self-Information)

对于单个事件xxx,其自信息定义为:
I(x)=−log⁡2P(x)=log⁡21P(x) I(x) = -\log_2 P(x) = \log_2 \frac{1}{P(x)} I(x)=−log2P(x)=log2P(x)1

这个公式来源于对I(x)I(x)I(x)性质的要求:

公理 数学表达 直观解释
非负性 I(x)≥0I(x) \geq 0I(x)≥0 信息量不能为负
确定性事件无信息 P(x)=1⇒I(x)=0P(x)=1 \Rightarrow I(x)=0P(x)=1⇒I(x)=0 必然事件不提供信息
独立事件可加 I(x,y)=I(x)+I(y)I(x,y) = I(x) + I(y)I(x,y)=I(x)+I(y) 独立事件的信息量相加
单调性 P(x)<P(y)⇒I(x)>I(y)P(x) < P(y) \Rightarrow I(x) > I(y)P(x)<P(y)⇒I(x)>I(y) 概率越小,信息量越大

根据独立事件可加性 这个函数方程可以推导出它的解就是对数函数:
I(P)=−k⋅log⁡(P) I(P)=-k\cdot\log(P) I(P)=−k⋅log(P)

其中kkk是常熟,通常取k=1k=1k=1,底数取2(单位是比特bit)或eee(单位是纳特nat)。

信息熵(Entropy)

信息熵是自信息的期望值 ,也就是随机变量每个可能取值的自信息基于其概率的加权平均,表示这个随机变量的平均不确定性:
H(X)=EI(X)=−∑i=1nP(xi)log⁡2P(xi) H(X) = EI(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i) H(X)=EI(X)=−i=1∑nP(xi)log2P(xi)

假设某个分类任务的其中一个样本真值标注GT为:

Class 0 1 2 3 4
Probability 0.0 0.0 0.0 1.0 0.0

而模型预测结果Pred为:

Class 0 1 2 3 4
Probability 0.15 0.2 0.25 0.1 0.3

GT 的信息熵为 −1log(1)=0-1log(1)=0−1log(1)=0,Pred 的信息熵为
−0.15log⁡(0.15)−0.2log⁡(0.2)−0.25log⁡(0.25)−0.1log⁡(0.1)−0.3log⁡(0.3)=2.2282 -0.15\log(0.15)-0.2\log(0.2)-0.25\log(0.25)-0.1\log(0.1)-0.3\log(0.3)=2.2282 −0.15log(0.15)−0.2log(0.2)−0.25log(0.25)−0.1log(0.1)−0.3log(0.3)=2.2282

可以看到,模型预测值的信息熵是很大的,说明其确定性很低。

换个角度理解,GT 分布是完全确定的,描述其分布需要的数据量非常少。而Pred分布非常不确定,描述其分布需要的数据量很大。

交叉熵(CrossEntropy)

信息熵衡量的是一个分布自身的不确定性,而在机器学习中,我们通常需要描述两个分布之间的关系:

  • 真实分布P(真实标签的分布)
  • 预测分布Q(模型预测的概率分布)

交叉熵描述的就是:用分布Q来编码分布P的数据,平均需要多少bit?其定义是:
H(P,Q)=−∑i=1nP(xi)log⁡2Q(xi) H(P, Q) = -\sum_{i=1}^{n} P(x_i) \log_2 Q(x_i) H(P,Q)=−i=1∑nP(xi)log2Q(xi)

交叉熵与信息熵的关系

H(P,Q)=H(P)+DKL(P∥Q) H(P, Q) = H(P) + D_{KL}(P \parallel Q) H(P,Q)=H(P)+DKL(P∥Q)

其中DKL(P∥Q)D_{KL}(P \parallel Q)DKL(P∥Q)是KL散度(Kullback-Leibler Divergence):
DKL(P∥Q)=∑iP(xi)log⁡P(xi)Q(xi)=∑iP(xi)log⁡P(xi)−∑iP(xi)log⁡Q(xi) D_{KL}(P \parallel Q) = \sum_i P(x_i) \log \frac{P(x_i)}{Q(x_i)} = \sum_i P(x_i) \log P(x_i) - \sum_i P(x_i) \log Q(x_i) DKL(P∥Q)=i∑P(xi)logQ(xi)P(xi)=i∑P(xi)logP(xi)−i∑P(xi)logQ(xi)

KL散度描述了两个概率分布之间的差异,它是证据深度学习(EDL)的关键概念。

相关推荐
AI导出鸭2 分钟前
智谱清言复制表格|AI 导出鸭一站式解决表格导出各类难题
人工智能
江畔柳前堤5 分钟前
github实战指南03-Pull Request 全流程实战
开发语言·人工智能·python·深度学习·github·word
小二·7 分钟前
AI 编程工具深度实战:从 Copilot 到 Coding Agent
人工智能·copilot
米小虾8 分钟前
让AI自主运行:Loop Engineering设计指南
人工智能·agent
shelutai9 分钟前
大模型折扣站66ai.ai使用方法
人工智能
微学AI10 分钟前
递阶式智能体开发范式(HADP):从超级Agent到智能体应用的层级架构理论与工程实践
人工智能·架构·agent
小易撩挨踢10 分钟前
[特殊字符] Spring AI 2.0.0 正式发布:大版本升级,MCP 原生集成 + Anthropic SDK 全线重构
人工智能·spring·重构
萤丰信息10 分钟前
从数字化到AI自治!2026智慧园区全新运营变革趋势
人工智能·智慧城市
小风吹啊吹~11 分钟前
通过时态图学习意图驱动识别足球控球比赛阶段 论文详解
学习·transformer·论文笔记·gan·足球战术·战术分析系统
老刘说AI11 分钟前
类Sora模型:解锁动态视觉艺术的密码
人工智能·stable diffusion·架构·embedding