【深度学习】交叉熵

**交叉熵(Cross-Entropy)**是信息论中的一个重要概念,也是在机器学习和深度学习中用于分类任务的常见损失函数。它衡量的是两个概率分布之间的差异,特别是模型的预测概率分布与真实分布的差异。

交叉熵最初是从信息论引入的,首先我们先来看一下什么是信息量,什么是熵,什么是相对熵。信息量 用于衡量一个事件发生所携带的信息。信息量用于衡量在一个不确定的环境中,某个事件发生时,能带来多少信息。信息量通常用比特(bit)来表示。对于一个发生概率为 p 的事件,其信息量定义为:

是一个系统中所有可能事件的不确定性或平均信息量的度量。它衡量的是整个系统的平均不确定性。当我们对系统的不确定性越大,熵值就越高。熵越大,表示系统的随机性或混乱程度越高。对于一个离散随机变量 X ,它的熵定义为:

**相对熵(Kullback-Leibler 散度,简称KL散度)**用于衡量两个概率分布之间的差异。它告诉我们,如果我们使用一个概率分布 q 来近似真实的概率分布 p,我们在信息上会有多少额外损失。KL散度越大,说明两个分布的差异越大。如果两个分布完全相同,则 KL 散度为0,表示我们没有任何信息损失。如果两个分布差异很大,则 KL 散度会较大,表示我们需要更多的额外信息来弥补近似分布和真实分布之间的差异。

根据类别数的不同,分为二元交叉熵和类别交叉熵:

相关推荐
Coder_Boy_1 小时前
技术让开发更轻松的底层矛盾
java·大数据·数据库·人工智能·深度学习
啊森要自信1 小时前
CANN ops-cv:面向计算机视觉的 AI 硬件端高效算子库核心架构与开发逻辑
人工智能·计算机视觉·架构·cann
2401_836235861 小时前
中安未来SDK15:以AI之眼,解锁企业档案的数字化基因
人工智能·科技·深度学习·ocr·生活
njsgcs1 小时前
llm使用 AgentScope-Tuner 通过 RL 训练 FrozenLake 智能体
人工智能·深度学习
董董灿是个攻城狮2 小时前
AI 视觉连载2:灰度图
人工智能
yunfuuwqi2 小时前
OpenClaw✅真·喂饭级教程:2026年OpenClaw(原Moltbot)一键部署+接入飞书最佳实践
运维·服务器·网络·人工智能·飞书·京东云
九河云2 小时前
5秒开服,你的应用部署还卡在“加载中”吗?
大数据·人工智能·安全·机器学习·华为云
2的n次方_2 小时前
CANN ascend-transformer-boost 架构解析:融合注意力算子管线、长序列分块策略与图引擎协同机制
深度学习·架构·transformer
人工智能培训2 小时前
具身智能视觉、触觉、力觉、听觉等信息如何实时对齐与融合?
人工智能·深度学习·大模型·transformer·企业数字化转型·具身智能
wenzhangli72 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能