交叉熵在机器学习中的应用解析

文章目录

- 核心概念
- - 香农信息量（自信息）
  - 熵（Entropy）
  - [KL散度（Kullback-Leibler Divergence）](#KL散度（Kullback-Leibler Divergence）)
  - 交叉熵
- 在机器学习中的应用
- - 作为损失函数
  - - [对于二分类（Binary Classification）：](#对于二分类（Binary Classification）：)
    - [对于多分类（Multiclass Classification）：](#对于多分类（Multiclass Classification）：)
    - [多标签分类（Multi-label Classification）](#多标签分类（Multi-label Classification）)
  - 其他应用场景
  - 实例
  - 直观解释
  - 为什么用交叉熵？
  - 变体与改进

交叉熵（Cross-Entropy）是信息论和机器学习中的一个重要概念，用于衡量两个概率分布之间的差异。它在分类任务（如逻辑回归、神经网络）中常作为损失函数使用。

核心概念

香农信息量（自信息）

对于一个具有概率 P ( x ) P(x) P(x) 的事件 x x x，其信息量 I ( x ) I(x) I(x) 定义为：
I ( x ) = − log ⁡ b P ( x ) I(x) = -\log_b P(x) I(x)=−logbP(x)

其中：

log ⁡ b \log_b logb 是以 b b b 为底的对数，常用的底数有：
- b = 2 b = 2 b=2：信息量单位为比特（bit）。
- b = e b = e b=e：信息量单位为奈特（nat）。
- b = 10 b = 10 b=10：信息量单位为哈特（hart）。
信息量 I ( x ) I(x) I(x) 表示事件 x x x 发生时所携带的信息的多少，概率越低的事件信息量越大。

熵（Entropy）

熵（平均信息量）

熵是随机变量不确定性的度量，定义为信息量的期望：
H ( X ) = − ∑ x ∈ X P ( x ) log ⁡ b P ( x ) H(X) = -\sum_{x \in X} P(x) \log_b P(x) H(X)=−x∈X∑P(x)logbP(x)

对于连续随机变量，熵可以表示为：
H ( X ) = − ∫ − ∞ ∞ p ( x ) log ⁡ b p ( x ) d x H(X) = -\int_{-\infty}^{\infty} p(x) \log_b p(x) \, dx H(X)=−∫−∞∞p(x)logbp(x)dx

其中 ( p(x) ) 是概率密度函数。

表示一个概率分布自身的不确定性。对于离散分布 P P P，熵定义为：
H ( P ) = − ∑ i P ( x i ) log ⁡ P ( x i ) H(P) = -\sum_{i} P(x_i) \log P(x_i) H(P)=−i∑P(xi)logP(xi)

熵越大，不确定性越高。

KL散度（Kullback-Leibler Divergence）

衡量两个分布 P P P（真实分布）和 Q Q Q（预测分布）的差异：
D K L ( P ∥ Q ) = ∑ i P ( x i ) log ⁡ P ( x i ) Q ( x i ) D_{KL}(P \| Q) = \sum_{i} P(x_i) \log \frac{P(x_i)}{Q(x_i)} DKL(P∥Q)=i∑P(xi)logQ(xi)P(xi)

KL散度非负，且不对称。
当 P = Q P = Q P=Q 时，交叉熵最小，等于 P P P 的熵。

交叉熵

交叉熵是熵与KL散度的组合：
H ( P , Q ) = H ( P ) + D K L ( P ∥ Q ) = − ∑ i P ( x i ) log ⁡ Q ( x i ) H(P, Q) = H(P) + D_{KL}(P \| Q) = -\sum_{i} P(x_i) \log Q(x_i) H(P,Q)=H(P)+DKL(P∥Q)=−i∑P(xi)logQ(xi)

当 P P P 是真实分布（如one-hot标签）， Q Q Q 是模型预测时，最小化交叉熵等价于最小化KL散度。

在机器学习中的应用

作为损失函数

对于二分类（Binary Classification）：

公式
L = − 1 N ∑ i = 1 N [ y i log ⁡ ( p i ) + ( 1 − y i ) log ⁡ ( 1 − p i ) ] L = -\frac{1}{N} \sum_{i=1}^N \left[ y_i \log(p_i) + (1-y_i) \log(1-p_i) \right] L=−N1i=1∑N[yilog(pi)+(1−yi)log(1−pi)]
其中 y i ∈ { 0 , 1 } y_i \in \{0,1\} yi∈{0,1} 是真实标签， p i p_i pi 是模型预测为正类的概率。
场景
逻辑回归、神经网络二分类输出层（如Sigmoid激活）。

对于多分类（Multiclass Classification）：

公式（分类交叉熵，Categorical Cross-Entropy）
L = − 1 N ∑ i = 1 N ∑ c = 1 C y i , c log ⁡ ( p i , c ) L = -\frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{i,c} \log(p_{i,c}) L=−N1i=1∑Nc=1∑Cyi,clog(pi,c)
- y i , c y_{i,c} yi,c：样本 i i i 属于类别 c c c 的真实标签（one-hot编码）。
- p i , c p_{i,c} pi,c：模型预测样本 i i i 属于类别 c c c 的概率。
场景
Softmax输出层配合交叉熵（如ResNet、Transformer的分类头）。

多标签分类（Multi-label Classification）

特点：每个样本可能属于多个类别，使用二元交叉熵对每个类别独立计算损失。
公式：
L = − 1 N ∑ i = 1 N ∑ c = 1 C [ y i , c log ⁡ ( p i , c ) + ( 1 − y i , c ) log ⁡ ( 1 − p i , c ) ] L = -\frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C \left[ y_{i,c} \log(p_{i,c}) + (1-y_{i,c}) \log(1-p_{i,c}) \right] L=−N1i=1∑Nc=1∑C[yi,clog(pi,c)+(1−yi,c)log(1−pi,c)]

其他应用场景

生成模型：GAN中判别器的损失函数常使用交叉熵衡量真实/生成分布的差异。
语言模型：预测下一个词的概率分布（如BERT、GPT的预训练目标）。
强化学习：策略梯度方法中优化策略分布与最优分布的交叉熵。

实例

手撸计算

假设真实分布 P = [ 1 , 0 ] P = [1, 0] P=[1,0]（类别1），模型预测 Q = [ 0.8 , 0.2 ] Q = [0.8, 0.2] Q=[0.8,0.2]：
H ( P , Q ) = − 1 ⋅ log ⁡ ( 0.8 ) − 0 ⋅ log ⁡ ( 0.2 ) ≈ 0.223 H(P, Q) = -1 \cdot \log(0.8) - 0 \cdot \log(0.2) \approx 0.223 H(P,Q)=−1⋅log(0.8)−0⋅log(0.2)≈0.223

若预测更差（如 $Q = \[0.3, 0.7\]$ ）：
H ( P , Q ) = − 1 ⋅ log ⁡ ( 0.3 ) ≈ 1.203 H(P, Q) = -1 \cdot \log(0.3) \approx 1.203 H(P,Q)=−1⋅log(0.3)≈1.203

实现示例（PyTorch）

python 复制代码

import torch.nn as nn

# 二分类
loss_fn = nn.BCELoss()  # 需手动Sigmoid
loss_fn = nn.BCEWithLogitsLoss()  # 内置Sigmoid

# 多分类
loss_fn = nn.CrossEntropyLoss()  # 输入为logits（无需Softmax）

注意事项

数值稳定性 ：计算 log ⁡ ( p ) \log(p) log(p)时可能溢出，通常框架会自动处理（如添加微小偏移 ϵ \epsilon ϵ）。
概率归一化：确保模型输出符合概率分布（如通过Softmax或Sigmoid）。

直观解释

当预测概率 Q Q Q 与真实分布 P P P 一致时，交叉熵最小（等于 P P P 的熵）。
预测越偏离真实，交叉熵越大。

为什么用交叉熵？

梯度友好性 ：
- 对于Softmax输出，交叉熵的梯度为 ∂ L ∂ z i = p i − y i \frac{\partial L}{\partial z_i} = p_i - y_i ∂zi∂L=pi−yi，避免了均方误差（MSE）的梯度消失问题（当 p i p_i pi接近0或1时，MSE梯度极小）。
概率解释：直接优化模型输出的概率分布与真实分布的差异，与最大似然估计（MLE）等价。天然适配分类任务的概率输出。
处理不平衡数据：可通过加权交叉熵（Weighted Cross-Entropy）调整类别权重。

变体与改进

标签平滑（Label Smoothing） ：防止模型对标签过度自信，将真实标签从1调整为 1 − ϵ 1-\epsilon 1−ϵ，其余类别分配 ϵ / ( C − 1 ) \epsilon/(C-1) ϵ/(C−1)。
Focal Loss ：解决类别不平衡问题，降低易分类样本的权重：
L = − α t ( 1 − p t ) γ log ⁡ ( p t ) L = -\alpha_t (1-p_t)^\gamma \log(p_t) L=−αt(1−pt)γlog(pt)
（ γ \gamma γ 为调节因子， α t \alpha_t αt 为类别权重）。

理解交叉熵的关键是掌握其与熵、KL散度的关系，以及如何通过最小化它来使模型逼近真实分布。