激活函数总结(四十二):激活函数补充(SSFG、Gumbel Cross Entropy)

激活函数总结(四十二):激活函数补充

  • [1 引言](#1 引言)
  • [2 激活函数](#2 激活函数)
    • [2.1 SSFG激活函数](#2.1 SSFG激活函数)
    • [2.2 Gumbel Cross Entropy激活函数](#2.2 Gumbel Cross Entropy激活函数)
  • [3. 总结](#3. 总结)

1 引言

前面的文章中已经介绍了介绍了一系列激活函数 (SigmoidTanhReLULeaky ReLUPReLUSwishELUSELUGELUSoftmaxSoftplusMishMaxoutHardSigmoidHardTanhHardswishHardShrinkSoftShrinkTanhShrinkRReLUCELUReLU6GLUSwiGLUGTUBilinearReGLUGEGLUSoftminSoftmax2dLogsoftmaxIdentityLogSigmoidBent IdentityAbsoluteBipolarBipolar SigmoidSinusoidCosineArcsinhArccoshArctanhLeCun TanhTanhExpGaussianGCUASUSQUNCUDSUSSUSReLUBReLUPELUPhishRBFSQ-RBFISRUISRLUSQNLPLUAPLInverse CubicSoft ExponentialParametricLinearPiecewise Linear UnitCLLSquaredReLUModReLUCosReLUSinReLUProbitSmishMultiquadraticInvMultiquadraticPSmishESwishCoLUShiftedSoftPlusLogitSoftsignELiSHHard ELiSHSerfFReLUQReLUm-QReLUFReLUCReLUKAFSirenARiAm-arcsinhPAUDELUPDELUCosLUNFNHermiteAHAFSERLUShiLUReLUN)。在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。这里放一张激活函数的机理图:

2 激活函数

2.1 SSFG激活函数

论文链接:SSFG: Stochastically Scaling Features and Gradients for Regularizing Graph Convolutional Networks

Stochastically Scaling Features and Gradients (SSFG) 是一种随机正则化方法,用来解决过度平滑问题。在所提出的方法中,我们通过从训练过程中的概率分布中抽样的因子随机缩放特征梯度(SSFG)。通过显式应用比例因子破坏特征收敛,可以缓解过度平滑问题。其算法和数学图像分别如下所示:


特点:

  • 实验结果表明,在梯度级别应用随机缩放与在特征级别应用随机缩放是互补的,以提高整体性能。
  • SSFG方法不会增加训练参数的数量。

SSFG在图神经网络上具有很好的效果,但是其在各个任务上具体表现仍有待商议。。。 使用的时候需要注意。。。

2.2 Gumbel Cross Entropy激活函数

论文链接:Long-tailed Instance Segmentation using Gumbel Optimized Loss

背景: 最近在目标检测和分割领域取得了重大进展。然而,当涉及到稀有类别时,最先进的方法无法检测到它们,导致稀有类别和频繁类别之间的性能差距很大。在本文中,我们发现深度探测器中使用的Sigmoid或Softmax功能是性能低主要原因,并且对于长尾检测和分割来说是次优的。为了解决这个问题,我们开发了一种Gumbel优化损失(GOL),用于长尾检测和分割。

Gumbel 激活函数,使用累积 Gumbel 分布定义,可用于执行 Gumbel 回归。Gumbel 激活是 sigmoid 或 softmax 激活函数的替代激活函数,可用于将模型的优标准化输出转换为概率Gumbel 激活的数学表达式如下所示:
η G u m b e l ( q i ) = e x p ( − e x p ( − q i ) ) \eta_{Gumbel}(q_i) = exp(-exp(-q_i)) ηGumbel(qi)=exp(−exp(−qi))

它可以与交叉熵损失函数结合使用,以解决长尾分类问题。Gumbel Cross Entropy(GCE)的定义如下:
G C E ( η G u m b e l ( q i ) , y i ) = − y i log ⁡ ( η G u m b e l ( q i ) ) + ( 1 − y i ) log ⁡ ( 1 − η G u m b e l ( q i ) ) GCE(\eta_{Gumbel}(q_i),y_i) = -y_i \log(\eta_{Gumbel}(q_i))+ (1-y_i) \log(1-\eta_{Gumbel}(q_i)) GCE(ηGumbel(qi),yi)=−yilog(ηGumbel(qi))+(1−yi)log(1−ηGumbel(qi))

特点:

  • 不对称的 :如上图所示,Gumbel 激活是不对称的。这意味着正梯度(即 y = 1 时)的取值范围为(-∞,0),而负梯度(即 y = 0 时)的取值范围为(0,1)。这是一个有益的特性,它允许正反馈指数增长,同时抑制负反馈。这在长尾分类中尤其有用,因为稀有类别的正反馈很少。

经作者论文的实验验证,Gumbel Cross Entropy在目标检测分割领域效果很好。但是还未经过大量实验和现实生活中的实验验证。。。。

3. 总结

到此,使用 激活函数总结(四十二) 已经介绍完毕了!!! 如果有什么疑问欢迎在评论区提出,对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!!!!

如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

相关推荐
ROBOT玲玉几秒前
Milvus 中,FieldSchema 的 dim 参数和索引参数中的 “nlist“ 的区别
python·机器学习·numpy
GocNeverGiveUp10 分钟前
机器学习2-NumPy
人工智能·机器学习·numpy
Kai HVZ1 小时前
python爬虫----爬取视频实战
爬虫·python·音视频
古希腊掌管学习的神1 小时前
[LeetCode-Python版]相向双指针——611. 有效三角形的个数
开发语言·python·leetcode
浊酒南街1 小时前
决策树(理论知识1)
算法·决策树·机器学习
m0_748244831 小时前
StarRocks 排查单副本表
大数据·数据库·python
B站计算机毕业设计超人1 小时前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习
大数据·人工智能·爬虫·python·机器学习·课程设计·数据可视化
路人甲ing..1 小时前
jupyter切换内核方法配置问题总结
chrome·python·jupyter
学术头条1 小时前
清华、智谱团队:探索 RLHF 的 scaling laws
人工智能·深度学习·算法·机器学习·语言模型·计算语言学
18号房客1 小时前
一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·sklearn