深度学习：交叉熵损失（Cross Entropy Loss）

交叉熵损失（Cross Entropy Loss）

交叉熵损失是一种常用于评估概率分类模型性能的损失函数。它衡量的是模型预测的概率分布与真实分布之间的差异。交叉熵损失特别适用于分类任务中，尤其是多类分类问题。

数学上，交叉熵可以定义为：

C(\\mathbf{y}, \\mathbf{\\hat{y}}) = -\\sum_{i=1}\^{N} y_i \\log(\\hat{y}_i)

其中：

( y \mathbf{y} y ) 是真实的标签分布，通常表示为one-hot编码向量。
( $\\mathbf{\\hat{y}}$ ) 是模型预测的概率分布，由模型的输出层经过softmax函数转换得到。
( N ) 是类别的总数。
( y i y_i yi ) 是实际标签在第 ( i i i ) 类的值（0或1），( $\\hat{y}_i KaTeX parse error: Can't use function '\\)' in math mode at position 1: \\̲)̲ 是预测为第 \\( i$ ) 类的概率。

交叉熵损失的核心特性包括：

在信息论中，交叉熵衡量的是使用错误的概率分布（模型预测）来编码事件（实际发生的类别）所需的额外信息量。理想情况下，我们希望模型的预测分布尽可能接近真实分布，这样交叉熵就最小，表示预测非常准确。

考虑一个简单的三类分类问题，比如预测一张图片是猫、狗还是鸟。假设对于一个实例，真实标签是狗，模型的预测输出（经过softmax）为：

\\hat{y} = \[0.1, 0.7, 0.2\]

对应的真实标签的one-hot编码为：

y = \[0, 1, 0\]

交叉熵损失计算为：

C(y, \\hat{y}) = -(0 \\times \\log(0.1) + 1 \\times \\log(0.7) + 0 \\times \\log(0.2)) = -\\log(0.7)

C ( y , y \^ ) ≈ 0.3567 C(y, \\hat{y}) \\approx 0.3567 C(y,y\^)≈0.3567

这表明模型对真实类别（狗）的预测概率为0.7时的损失为0.3567。如果模型对狗的预测概率更高，比如0.9，则损失会更低，显示为：

C ( y , y \^ ) = − log ⁡ ( 0.9 ) ≈ 0.1054 C(y, \\hat{y}) = -\\log(0.9) \\approx 0.1054 C(y,y\^)=−log(0.9)≈0.1054

交叉熵损失函数是监督学习中非常重要的工具，特别是在处理分类问题时。它不仅提供了一种衡量模型性能的方法，还通过梯度下降等优化算法指导了模型的学习过程。优化交叉熵损失可以帮助模型更好地学习区分不同类别，提高分类的准确率。