激活函数总结（四十二）：激活函数补充(SSFG、Gumbel Cross Entropy)

激活函数总结（四十二）：激活函数补充

[1 引言](#1 引言)
[2 激活函数](#2 激活函数)
- [2.1 SSFG激活函数](#2.1 SSFG激活函数)
- [2.2 Gumbel Cross Entropy激活函数](#2.2 Gumbel Cross Entropy激活函数)
[3. 总结](#3. 总结)

1 引言

在前面的文章中已经介绍了介绍了一系列激活函数 (Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、Swish、ELU、SELU、GELU、Softmax、Softplus、Mish、Maxout、HardSigmoid、HardTanh、Hardswish、HardShrink、SoftShrink、TanhShrink、RReLU、CELU、ReLU6、GLU、SwiGLU、GTU、Bilinear、ReGLU、GEGLU、Softmin、Softmax2d、Logsoftmax、Identity、LogSigmoid、Bent Identity、Absolute、Bipolar、Bipolar Sigmoid、Sinusoid、Cosine、Arcsinh、Arccosh、Arctanh、LeCun Tanh、TanhExp、Gaussian 、GCU、ASU、SQU、NCU、DSU、SSU、SReLU、BReLU、PELU、Phish、RBF、SQ-RBF、ISRU、ISRLU、SQNL、PLU、APL、Inverse Cubic、Soft Exponential、ParametricLinear、Piecewise Linear Unit、CLL、SquaredReLU、ModReLU、CosReLU、SinReLU、Probit、Smish、Multiquadratic、InvMultiquadratic、PSmish、ESwish、CoLU、ShiftedSoftPlus、Logit、Softsign、ELiSH、Hard ELiSH、Serf、FReLU、QReLU、m-QReLU、FReLU、CReLU、KAF、Siren、ARiA、m-arcsinh、PAU、DELU、PDELU、CosLU、NFN、Hermite、AHAF、SERLU、ShiLU、ReLUN)。在这篇文章中，会接着上文提到的众多激活函数继续进行介绍，给大家带来更多不常见的激活函数的介绍。这里放一张激活函数的机理图：

2 激活函数

2.1 SSFG激活函数

论文链接：SSFG: Stochastically Scaling Features and Gradients for Regularizing Graph Convolutional Networks

Stochastically Scaling Features and Gradients (SSFG) 是一种随机正则化方法，用来解决过度平滑问题。在所提出的方法中，我们通过从训练过程中的概率分布中抽样的因子随机缩放特征和梯度（SSFG）。通过显式应用比例因子来破坏特征收敛，可以缓解过度平滑问题。其算法和数学图像分别如下所示：

特点：

实验结果表明，在梯度级别应用随机缩放与在特征级别应用随机缩放是互补的，以提高整体性能。
SSFG方法不会增加可训练参数的数量。

SSFG在图神经网络上具有很好的效果，但是其在各个任务上具体表现仍有待商议。。。使用的时候需要注意。。。

2.2 Gumbel Cross Entropy激活函数

论文链接：Long-tailed Instance Segmentation using Gumbel Optimized Loss

背景：最近在目标检测和分割领域取得了重大进展。然而，当涉及到稀有类别时，最先进的方法无法检测到它们，导致稀有类别和频繁类别之间的性能差距很大。在本文中，我们发现深度探测器中使用的Sigmoid或Softmax功能是性能低的主要原因，并且对于长尾检测和分割来说是次优的。为了解决这个问题，我们开发了一种Gumbel优化损失（GOL），用于长尾检测和分割。

Gumbel 激活函数，使用累积 Gumbel 分布定义，可用于执行 Gumbel 回归。Gumbel 激活是 sigmoid 或 softmax 激活函数的替代激活函数，可用于将模型的优标准化输出转换为概率。Gumbel 激活的数学表达式如下所示：
η G u m b e l ( q i ) = e x p ( − e x p ( − q i ) ) \eta_{Gumbel}(q_i) = exp(-exp(-q_i)) ηGumbel(qi)=exp(−exp(−qi))

它可以与交叉熵损失函数结合使用，以解决长尾分类问题。Gumbel Cross Entropy（GCE）的定义如下：
G C E ( η G u m b e l ( q i ) , y i ) = − y i log ⁡ ( η G u m b e l ( q i ) ) + ( 1 − y i ) log ⁡ ( 1 − η G u m b e l ( q i ) ) GCE(\eta_{Gumbel}(q_i),y_i) = -y_i \log(\eta_{Gumbel}(q_i))+ (1-y_i) \log(1-\eta_{Gumbel}(q_i)) GCE(ηGumbel(qi),yi)=−yilog(ηGumbel(qi))+(1−yi)log(1−ηGumbel(qi))

特点：

不对称的 ：如上图所示，Gumbel 激活是不对称的。这意味着正梯度（即 y = 1 时）的取值范围为（-∞，0），而负梯度（即 y = 0 时）的取值范围为（0，1）。这是一个有益的特性，它允许正反馈呈指数增长，同时抑制负反馈。这在长尾分类中尤其有用，因为稀有类别的正反馈很少。

经作者论文的实验验证，Gumbel Cross Entropy在目标检测和分割领域效果很好。但是还未经过大量实验和现实生活中的实验验证。。。。

3. 总结

到此，使用激活函数总结（四十二）已经介绍完毕了！！！如果有什么疑问欢迎在评论区提出，对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数也可以在评论区提出，后续会对其进行添加！！！！

如果觉得这篇文章对你有用，记得点赞、收藏并分享给你的小伙伴们哦😄。