【深度学习】交叉熵

**交叉熵(Cross-Entropy)**是信息论中的一个重要概念,也是在机器学习和深度学习中用于分类任务的常见损失函数。它衡量的是两个概率分布之间的差异,特别是模型的预测概率分布与真实分布的差异。

交叉熵最初是从信息论引入的,首先我们先来看一下什么是信息量,什么是熵,什么是相对熵。信息量 用于衡量一个事件发生所携带的信息。信息量用于衡量在一个不确定的环境中,某个事件发生时,能带来多少信息。信息量通常用比特(bit)来表示。对于一个发生概率为 p 的事件,其信息量定义为:

是一个系统中所有可能事件的不确定性或平均信息量的度量。它衡量的是整个系统的平均不确定性。当我们对系统的不确定性越大,熵值就越高。熵越大,表示系统的随机性或混乱程度越高。对于一个离散随机变量 X ,它的熵定义为:

**相对熵(Kullback-Leibler 散度,简称KL散度)**用于衡量两个概率分布之间的差异。它告诉我们,如果我们使用一个概率分布 q 来近似真实的概率分布 p,我们在信息上会有多少额外损失。KL散度越大,说明两个分布的差异越大。如果两个分布完全相同,则 KL 散度为0,表示我们没有任何信息损失。如果两个分布差异很大,则 KL 散度会较大,表示我们需要更多的额外信息来弥补近似分布和真实分布之间的差异。

根据类别数的不同,分为二元交叉熵和类别交叉熵:

相关推荐
摸鱼仙人~几秒前
BERT分类的上下文限制及解决方案
人工智能·分类·bert
神一样的老师2 分钟前
微型机器学习(TinyML):研究趋势与未来应用机遇
人工智能·机器学习
木头程序员3 分钟前
机器学习概述:核心范式、关键技术与应用展望
大数据·人工智能·机器学习·回归·聚类
悟道心3 分钟前
5. 自然语言处理NLP - Transformer
人工智能·自然语言处理·transformer
摸鱼仙人~4 分钟前
使用 BERT 系列模型实现 RAG Chunk 分类打标
人工智能·分类·bert
c7696 分钟前
【文献笔记】Mixture-of-Agents Enhances Large Language Model Capabilities
人工智能·笔记·语言模型·自然语言处理·论文笔记·提示工程
我的offer在哪里6 分钟前
Unsloth,为大语言模型(LLM)微调设计的高效开源框架
人工智能·语言模型·开源
zhengfei6116 分钟前
【AI工具】——人工智能驱动的自动化网络安全威胁检测平台
人工智能·web安全·自动化
2503_946971867 分钟前
【BruteForce/Pruning】2026年度物理层暴力破解与神经网络剪枝基准索引 (Benchmark Index)
人工智能·神经网络·算法·数据集·剪枝·网络架构·系统运维
~央千澈~7 分钟前
AI音乐100%有版权的路劲是什么?AI音乐的版权处理卓伊凡
人工智能