深度学习:交叉熵损失(Cross Entropy Loss)

交叉熵损失(Cross Entropy Loss)

定义和数学表达

交叉熵损失是一种常用于评估概率分类模型性能的损失函数。它衡量的是模型预测的概率分布与真实分布之间的差异。交叉熵损失特别适用于分类任务中,尤其是多类分类问题。

数学上,交叉熵可以定义为:

$C(\\mathbf{y}, \\mathbf{\\hat{y}}) = -\\sum_{i=1}\^{N} y_i \\log(\\hat{y}_i) $

其中:

  • ( y \mathbf{y} y ) 是真实的标签分布,通常表示为one-hot编码向量。
  • ( \\mathbf{\\hat{y}} ) 是模型预测的概率分布,由模型的输出层经过softmax函数转换得到。
  • ( N ) 是类别的总数。
  • ( y i y_i yi ) 是实际标签在第 ( i i i ) 类的值(0或1),( \\hat{y}_i KaTeX parse error: Can't use function '\\)' in math mode at position 1: \\̲)̲ 是预测为第 \\( i ) 类的概率。
特性

交叉熵损失的核心特性包括:

  • 敏感性:这个函数对正确分类的概率非常敏感。如果实际类别的预测概率低(即接近于0),那么损失将会非常高。
  • 非对称性:这种损失在处理极端概率(接近0或1)时表现出明显的非对称性。特别是当预测概率趋近于0时,损失会迅速增加。
交叉熵与信息论

在信息论中,交叉熵衡量的是使用错误的概率分布(模型预测)来编码事件(实际发生的类别)所需的额外信息量。理想情况下,我们希望模型的预测分布尽可能接近真实分布,这样交叉熵就最小,表示预测非常准确。

实例解释

考虑一个简单的三类分类问题,比如预测一张图片是猫、狗还是鸟。假设对于一个实例,真实标签是狗,模型的预测输出(经过softmax)为:

$ \\hat{y} = \[0.1, 0.7, 0.2\]$

对应的真实标签的one-hot编码为:

$ y = \[0, 1, 0\]$

交叉熵损失计算为:

$C(y, \\hat{y}) = -(0 \\times \\log(0.1) + 1 \\times \\log(0.7) + 0 \\times \\log(0.2)) = -\\log(0.7) $

C ( y , y \^ ) ≈ 0.3567 C(y, \\hat{y}) \\approx 0.3567 C(y,y\^)≈0.3567

这表明模型对真实类别(狗)的预测概率为0.7时的损失为0.3567。如果模型对狗的预测概率更高,比如0.9,则损失会更低,显示为:

C ( y , y \^ ) = − log ⁡ ( 0.9 ) ≈ 0.1054 C(y, \\hat{y}) = -\\log(0.9) \\approx 0.1054 C(y,y\^)=−log(0.9)≈0.1054

结论

交叉熵损失函数是监督学习中非常重要的工具,特别是在处理分类问题时。它不仅提供了一种衡量模型性能的方法,还通过梯度下降等优化算法指导了模型的学习过程。优化交叉熵损失可以帮助模型更好地学习区分不同类别,提高分类的准确率。

相关推荐
CV@CV4 分钟前
自动驾驶端到端大模型实战——从原理到工程化落地
人工智能·机器学习·自动驾驶
人肉推土机6 分钟前
Clawdbot(Moltbot)源码部署全实测:从环境搭建到 WebChat 验证,避坑指南收好
人工智能·大模型·agentic·skills·clawdbot·moltbot
yhdata7 分钟前
医疗零部件领域新宠:超声波精密清洗系统,市场规模近29.14亿元
大数据·人工智能
CV@CV7 分钟前
自动驾驶传感器融合技术解析——L4级落地的核心支撑
人工智能·机器学习·自动驾驶
L_Jason先生7 分钟前
高效利用 Coding Agent 进行规约驱动开发 (SDD):原理、实践与未来洞察
人工智能·驱动开发·知识图谱
2501_9421917717 分钟前
RetinaNet与伪装目标检测:提升模型识别能力的实战指南
人工智能·目标检测·目标跟踪
2501_9413331017 分钟前
【工业视觉检测】基于YOLOv8的皮带输送机关键部件检测与识别系统完整实现
人工智能·yolo·视觉检测
yukai0800820 分钟前
【最后203篇系列】036 MDP学习思考
人工智能·学习
大模型玩家七七24 分钟前
安全对齐不是消灭风险,而是重新分配风险
android·java·数据库·人工智能·深度学习·安全
格林威25 分钟前
Baumer相机电池极耳对齐度检测:提升叠片工艺精度的 5 个实用方案,附 OpenCV+Halcon 实战代码!
人工智能·opencv·机器学习·计算机视觉·视觉检测·工业相机·堡盟相机