损失函数汇总

kl

在多分类问题中，KL（Kullback-Leibler）损失通常用于衡量模型预测的概率分布与真实标签的概率分布之间的差异。在多分类任务中，通常使用交叉熵损失（Cross Entropy Loss）作为主要的损失函数，但KL损失可以作为附加的损失函数或正则化项来提供额外的信息，尤其在一些特定场景下。

假设有一个多分类任务，模型预测的概率分布为Q，真实标签的概率分布为P。KL损失定义如下：
K L ( P ∣ ∣ Q ) = ∑ P i ∗ l o g ( P i Q i ) KL(P || Q) = \sum P_i * log(\frac{P_i}{Q_i}) KL(P∣∣Q)=∑Pi∗log(QiPi)

其中， P i P_i Pi和 Q i Q_i Qi分别是真实标签和模型预测的第 i i i个类别的概率值。 ∑ \sum ∑表示对所有类别的求和。

交叉熵

交叉熵损失（Cross Entropy Loss），也称为负对数似然损失（Negative Log Likelihood Loss），是在分类任务中常用的一种损失函数。它用于衡量模型预测的概率分布与真实标签之间的差异，通常用于训练分类模型。

在交叉熵损失中，假设有一个多分类任务，模型的输出是一组概率分布，表示每个类别的预测概率。真实标签是一个one-hot编码的向量，其中仅有正确类别的位置为1，其他位置为0。交叉熵损失通过对每个类别的预测概率和真实标签的one-hot向量进行对数运算，来度量预测概率与真实标签之间的差异。

对于单个样本，交叉熵损失的计算公式如下，是LogSoftmax和NLLLoss的结合：
C r o s s E n t r o p y L o s s = − ∑ y i ∗ l o g ( p i ) l o s s ( x , c l a s s ) = − log ⁡ ( e x p ( x [ c l a s s ] ) ∑ j e x p ( x [ j ] ) CrossEntropyLoss = -\sum y_i * log(p_i) \\ loss(x,class) = -\log (\frac{exp(x[class])}{\sum_j exp(x[j])} CrossEntropyLoss=−∑yi∗log(pi)loss(x,class)=−log(∑jexp(x[j])exp(x[class])

其中， y i y_i yi表示真实标签的第 i i i个类别的one-hot编码（即0或1）， p i p_i pi表示模型预测的第 i i i个类别的概率。

BCE loss

假设 N N N为batch size，x为prediction，范围为 ( 0 , 1 ) (0,1) (0,1)，y为target，取值为 { 0 , 1 } \{0,1\} {0,1}， w w w为权重，损失：
l ( x , y ) = L = { l 1 , . . . l N } N , l n = − w n [ y n ⋅ log ⁡ x n + ( 1 − y n ) ⋅ log ⁡ ( 1 − x n ) ] l(x,y) = L = \{l_1,...l_N\}^N, l_n = -w_n[y_n\cdot \log x_n + (1-y_n)\cdot \log(1 - x_n)] l(x,y)=L={l1,...lN}N,ln=−wn[yn⋅logxn+(1−yn)⋅log(1−xn)]

在实现中还可以选择reduction为 m e a n mean mean还是 s u m sum sum

保证预测范围在 ( 0 , 1 ) (0,1) (0,1)是通过sigmoid函数
f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + e^{-x}} f(x)=1+e−x1

focalloss

Focal Loss是一种用于解决类别不均衡问题的损失函数，特别适用于目标检测等任务中存在严重类别不平衡的情况。Focal Loss由Lin et al.在2017年的论文《Focal Loss for Dense Object Detection》中提出。

在传统的交叉熵损失函数中，所有的预测错误都被均等地对待，即使对于易于分类的样本，其错误也会对损失函数产生较大的贡献。而对于类别不平衡的情况，数量较少的类别往往容易被忽略，导致模型对于这些类别的预测性能较差。

Focal Loss通过引入一个调节因子来解决类别不平衡的问题。其主要思想是将易分类的样本的损失贡献减少，从而使模型更加关注难分类的样本。Focal Loss的计算公式如下：
F o c a l L o s s = − α ∗ ( 1 − p ) γ ∗ l o g ( p ) Focal Loss = -\alpha * (1-p)^\gamma * log(p) FocalLoss=−α∗(1−p)γ∗log(p)

其中， p p p是模型预测的概率， α α α是一个平衡因子，用于调整易分类样本和难分类样本之间的权重， γ γ γ是一个调节因子，用于调整对难分类样本的关注程度。

具体来说，当样本属于数量较少的类别（难分类样本）时， p p p较小， ( 1 − p ) γ (1 - p)^γ (1−p)γ的值较大，因此对应的损失贡献较大。而当样本属于数量较多的类别（易分类样本）时， p p p较大， ( 1 − p ) γ (1 - p)^γ (1−p)γ的值较小，因此对应的损失贡献减少。 α α α可以根据实际情况设置，通常可以根据类别的样本数量来进行调整。

复制代码

import torch
import torch.nn as nn
import torch.nn.functional as F

class FocalLoss(nn.Module):
    def __init__(self, alpha=0.25, gamma=2):
        super(FocalLoss, self).__init__()
        self.alpha = alpha
        self.gamma = gamma

    def forward(self, inputs, targets):
        # 计算交叉熵损失
        ce_loss = F.cross_entropy(inputs, targets, reduction='none')

        # 计算概率
        probs = F.softmax(inputs, dim=1)

        # 计算Focal Loss
        focal_loss = self.alpha * (1 - probs) ** self.gamma * ce_loss

        # 求平均损失
        return focal_loss.mean()

# 示例用法
# 创建模型
model = YourModel()

# 创建损失函数
focal_loss_fn = FocalLoss()

# 前向传播计算损失
inputs = torch.randn(batch_size, num_classes)
targets = torch.randint(0, num_classes, (batch_size,))
loss = focal_loss_fn(inputs, targets)

# 反向传播更新参数
loss.backward()
optimizer.step()

Reploss

"Reploss"（Representation Loss）是一种用于特征学习和表示学习的损失函数，它的目标是使学到的特征在某种度量上具有一定的性质或优势。Representation Loss在深度学习中被广泛用于各种任务，如图像检索、聚类、生成对抗网络（GANs）等，以及一些特征学习的自监督学习方法中。

Representation Loss通常是一种对比损失（Contrastive Loss）或三元组损失（Triplet Loss），它们的目标是通过对训练数据的正负样本之间的距离进行约束，使得同类样本之间的距离尽量小，不同类样本之间的距离尽量大。这样可以使得学习到的特征在某种度量下具有更好的可区分性，有利于后续的任务处理。

常见的Representation Loss包括：

对比损失（Contrastive Loss）：对于一对样本，根据它们之间的距离来计算损失，希望同类样本之间的距离接近0，不同类样本之间的距离远离。
三元组损失（Triplet Loss）：对于一组三元组（锚样本、正样本、负样本），通过约束锚样本到正样本的距离小于锚样本到负样本的距离来计算损失，从而使得同类样本之间的距离尽量小于不同类样本之间的距离。

Representation Loss在自监督学习中也得到广泛应用。在自监督学习中，模型通过预测数据的自身特征或数据的某种变换形式来学习表示，而Representation Loss则用于衡量学到的表示的质量和可用性。

需要根据具体任务和数据特点来选择合适的Representation Loss，它的设计和使用在深度学习中起到了至关重要的作用，可以帮助学习到更有用和具有判别性的特征表示。

SmoothL1Loss

N N N为batchsize
l ( x , y ) = L = { l 1 , . . . , l N } T l n = { 0.5 ( x n − y n ) 2 / b e t a ∣ x n − y n ∣ < b e t a ∣ x n − y n ∣ − 0.5 ∗ b e t a o t h e r w i s e l(x,y) = L = \{l_1,...,l_N\}^T \\ ln = \begin{cases} 0.5(x_n-y_n)^2/beta & |x_n-y_n|<beta \\ |x_n-y_n|-0.5*beta & otherwise \end{cases} l(x,y)=L={l1,...,lN}Tln={0.5(xn−yn)2/beta∣xn−yn∣−0.5∗beta∣xn−yn∣<betaotherwise

MSE loss

l n = ( x n − y n ) 2 l_n = (x_n - y_n)^2 ln=(xn−yn)2

REF
https://blog.csdn.net/Blankit1/article/details/119799222
https://pytorch.org/docs/stable/nn.html#loss-functions