基础知识补充

1 对数交叉熵损失函数Cross-Entropy Loss

衡量模型预测的概率分布与真实标签的概率分布之间的差异

  1. 二分类 Binary Cross-Entropy
    真实标签 yyy :000 或 111。
    模型输出 y^\hat{y}y^(Sigmoid 函数激活)是一个 000 到 111 之间的概率值,表示样本属于类别 111 的概率。
    对于单个样本,L=−ylog⁡(y\^)+(1−y)log⁡(1−y\^)L = - y \\log(\\hat{y}) + (1 - y) \\log(1 - \\hat{y})L=−ylog(y\^)+(1−y)log(1−y\^)
    • 当真实标签 y=1y = 1y=1 时:L=−log⁡(y^)L = - \log(\hat{y})L=−log(y^)
      • 如果模型预测 y^\hat{y}y^ 接近 111(预测对了),−log⁡(y^)-\log(\hat{y})−log(y^) 接近 000,损失很小。
      • 如果模型预测 y^\hat{y}y^ 接近 000(预测错了),−log⁡(y^)-\log(\hat{y})−log(y^) 会趋近于正无穷,给予模型巨大的惩罚。
    • 当真实标签 y=0y = 0y=0 时:L=−log⁡(1−y^)L = - \log(1 - \hat{y})L=−log(1−y^)
      • 如果模型预测 y^\hat{y}y^ 接近 000(预测对了),1−y^1-\hat{y}1−y^ 接近 111,损失接近 000。
      • 如果模型预测 y^\hat{y}y^ 接近 111(预测错了),1−y^1-\hat{y}1−y^ 接近 000,损失趋近于正无穷。
    • sigmod:y^=σ(z)=11+e−z\hat{y} = \sigma(z) = \frac{1}{1 + e^{-z}}y^=σ(z)=1+e−z1
      • 求导:∂L∂z=y^−y\frac{\partial L}{\partial z} = \hat{y} - y∂z∂L=y^−y
  2. 多分类 Multi-Class Cross-Entropy
    真实标签 yyy 通常是一个 One-Hot 编码的向量,
    模型输出 y^\hat{y}y^(Softmax 函数激活)是一个概率分布向量,所有类别的预测概率之和为 100%。
    对于单个样本,L=−∑c=1Myclog⁡(y^c)L = - \sum_{c=1}^{M} y_c \log(\hat{y}_c)L=−c=1∑Myclog(y^c)MMM:总类别数
    ycy_cyc:如果样本属于第 ccc 类,则 yc=1y_c = 1yc=1,否则 yc=0y_c = 0yc=0
    y^c\hat{y}_cy^c:模型预测样本属于第 ccc 类 的概率
    • 除了真实类别外,其他的 ycy_cyc 全都是 000,所以多分类损失在本质上只关心模型在那个正确类别上的预测概率。正确类别的预测概率越接近 111,整体损失就越低。
    • Softmax:y^i=ezi∑k=1Mezk\hat{y}i = \frac{e^{z_i}}{\sum{k=1}^{M} e^{z_k}}y^i=∑k=1Mezkezi
      求导:∂L∂zi=y^i−yi\frac{\partial L}{\partial z_i} = \hat{y}_i - y_i∂zi∂L=y^i−yi
  3. 求导:∂L∂z=y^−y\frac{\partial L}{\partial \mathbf{z}} = \mathbf{\hat{y}} - \mathbf{y}∂z∂L=y^−y

为什么分类问题不用均方误差(MSE)

在回归问题中,我们常用均方误差(MSE=(y−y^)2MSE = (y - \hat{y})^2MSE=(y−y^)2)。为什么分类问题要大费周章地用对数交叉熵呢?

  • 对错误惩罚更严厉(梯度消失问题):分类模型的最后一层通常是 Sigmoid 或 Softmax。如果使用 MSE,当模型预测完全错误(真值为 111,预测为 000)时,Sigmoid 的导数会趋于 000,导致梯度消失,模型很难通过反向传播来纠错。而交叉熵由于引入了 log⁡\loglog,求导后可以完美抵消 Sigmoid 的导数项,使得预测差异越大,梯度越大,模型学得越快。
  • 符合概率最大似然估计:从统计学角度来看,最小化交叉熵损失,实际上等价于最大化样本数据的似然函数,具有严谨的数学理论支撑。
相关推荐
我爱cope1 小时前
【Agent智能体17 | 工具使用-MCP协议】
人工智能·语言模型·职场和发展
ZHW_AI课题组1 小时前
Python调用百度智能云API实现文本纠错
人工智能·机器学习·百度云
宸津-代码粉碎机1 小时前
Spring AI企业级RAG进阶|文档智能分片调优、ES深度整合、接口限流熔断监控生产实战
java·开发语言·人工智能·后端·spring·elasticsearch·oracle
知识浅谈1 小时前
人工智能日报 每日AI新闻(2026年6月2日):OpenAI上AWS、Anthropic递表与AI终端竞赛升温
大数据·人工智能·aws
Ai财富密码1 小时前
【Codex入门教程2】用Codex零基础手搓“双摄 App”并上架 App Store 的通关指南
人工智能·codex·gpt5.5·双摄app
qqxhb2 小时前
36|RAG 评测与回归:命中率、覆盖率、引用正确性
人工智能·数据挖掘·回归·覆盖率·命中率·正确性
神州数码云基地2 小时前
DSPy + Parlant:从手动调优到自动编译的效率加速器
人工智能·深度学习·机器学习
云烟成雨TD9 小时前
Spring AI Alibaba 1.x 系列【69】Token 用量统计
java·人工智能·spring