技术栈
交叉熵
十年伴树
5 个月前
知识蒸馏
·
交叉熵
·
llm compression
·
后验估计
20240621日志:大模型压缩-从闭源大模型蒸馏
location:beijing 涉及知识:大模型压缩、知识蒸馏本文提出在一个贝叶斯估计框架内估计闭源语言模型的输出分布,包括先验估计和后验估计。先验估计的目的是通过闭源模型生成的语料库(可能包含模型的粗粒度信息)得到先验分布;后验估计使用代理模型来更新先验分布并生成后验分布。利用这两个分布来进行知识蒸馏。
西西弗Sisyphus
5 个月前
交叉熵
深入理解交叉熵损失CrossEntropyLoss - 信息论(交叉熵)
其中, P ( x ) P(x) P(x) 是事件 x x x 发生的概率,通常以2为底数(即比特)。 事件越不可能发生,其自信息量越大。
CSU迦叶
7 个月前
pytorch
·
python
·
交叉熵
python自定义交叉熵损失,再和pytorch api对比
我们知道,交叉熵本质上是两个概率分布之间差异的度量,公式如下其中概率分布P是基准,我们知道H(P,Q)>=0,那么H(P,Q)越小,说明Q约接近P。
重剑DS
1 年前
人工智能
·
深度学习
·
机器学习
·
交叉熵
·
bceloss
二元交叉熵损失函数(Binary Cross Entropy Loss,BCELoss)是交叉熵损失函数(CrossEntropyLoss)的特殊情况
一直以来看到二元交叉熵损失函数(Binary Cross Entropy Loss,BCELoss) 还以为是很复杂的东西,原来其实是交叉熵损失函数(CrossEntropyLoss)的特殊情况,也就是二元交叉熵损失函数其实就是交叉熵损失函数。
冒冒菜菜
1 年前
机器学习
·
softmax
·
熵
·
信息熵
·
kl散度
·
交叉熵
·
交叉损失函数
一篇文章彻底搞懂熵、信息熵、KL散度、交叉熵、Softmax和交叉熵损失函数
1. 熵是一个物理学概念,它表示一个系统的不确定性程度,或者说是一个系统的混乱程度。2. 信息熵:一个叫香农的美国数学家将熵引入信息论中,用来衡量信息的不确定性,并将它命名为 “香农熵” 或者 “信息熵”。