激活函数总结(四十二):激活函数补充(SSFG、Gumbel Cross Entropy)

激活函数总结(四十二):激活函数补充

  • [1 引言](#1 引言)
  • [2 激活函数](#2 激活函数)
    • [2.1 SSFG激活函数](#2.1 SSFG激活函数)
    • [2.2 Gumbel Cross Entropy激活函数](#2.2 Gumbel Cross Entropy激活函数)
  • [3. 总结](#3. 总结)

1 引言

前面的文章中已经介绍了介绍了一系列激活函数 (SigmoidTanhReLULeaky ReLUPReLUSwishELUSELUGELUSoftmaxSoftplusMishMaxoutHardSigmoidHardTanhHardswishHardShrinkSoftShrinkTanhShrinkRReLUCELUReLU6GLUSwiGLUGTUBilinearReGLUGEGLUSoftminSoftmax2dLogsoftmaxIdentityLogSigmoidBent IdentityAbsoluteBipolarBipolar SigmoidSinusoidCosineArcsinhArccoshArctanhLeCun TanhTanhExpGaussianGCUASUSQUNCUDSUSSUSReLUBReLUPELUPhishRBFSQ-RBFISRUISRLUSQNLPLUAPLInverse CubicSoft ExponentialParametricLinearPiecewise Linear UnitCLLSquaredReLUModReLUCosReLUSinReLUProbitSmishMultiquadraticInvMultiquadraticPSmishESwishCoLUShiftedSoftPlusLogitSoftsignELiSHHard ELiSHSerfFReLUQReLUm-QReLUFReLUCReLUKAFSirenARiAm-arcsinhPAUDELUPDELUCosLUNFNHermiteAHAFSERLUShiLUReLUN)。在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。这里放一张激活函数的机理图:

2 激活函数

2.1 SSFG激活函数

论文链接:SSFG: Stochastically Scaling Features and Gradients for Regularizing Graph Convolutional Networks

Stochastically Scaling Features and Gradients (SSFG) 是一种随机正则化方法,用来解决过度平滑问题。在所提出的方法中,我们通过从训练过程中的概率分布中抽样的因子随机缩放特征梯度(SSFG)。通过显式应用比例因子破坏特征收敛,可以缓解过度平滑问题。其算法和数学图像分别如下所示:


特点:

  • 实验结果表明,在梯度级别应用随机缩放与在特征级别应用随机缩放是互补的,以提高整体性能。
  • SSFG方法不会增加训练参数的数量。

SSFG在图神经网络上具有很好的效果,但是其在各个任务上具体表现仍有待商议。。。 使用的时候需要注意。。。

2.2 Gumbel Cross Entropy激活函数

论文链接:Long-tailed Instance Segmentation using Gumbel Optimized Loss

背景: 最近在目标检测和分割领域取得了重大进展。然而,当涉及到稀有类别时,最先进的方法无法检测到它们,导致稀有类别和频繁类别之间的性能差距很大。在本文中,我们发现深度探测器中使用的Sigmoid或Softmax功能是性能低主要原因,并且对于长尾检测和分割来说是次优的。为了解决这个问题,我们开发了一种Gumbel优化损失(GOL),用于长尾检测和分割。

Gumbel 激活函数,使用累积 Gumbel 分布定义,可用于执行 Gumbel 回归。Gumbel 激活是 sigmoid 或 softmax 激活函数的替代激活函数,可用于将模型的优标准化输出转换为概率Gumbel 激活的数学表达式如下所示:
η G u m b e l ( q i ) = e x p ( − e x p ( − q i ) ) \eta_{Gumbel}(q_i) = exp(-exp(-q_i)) ηGumbel(qi)=exp(−exp(−qi))

它可以与交叉熵损失函数结合使用,以解决长尾分类问题。Gumbel Cross Entropy(GCE)的定义如下:
G C E ( η G u m b e l ( q i ) , y i ) = − y i log ⁡ ( η G u m b e l ( q i ) ) + ( 1 − y i ) log ⁡ ( 1 − η G u m b e l ( q i ) ) GCE(\eta_{Gumbel}(q_i),y_i) = -y_i \log(\eta_{Gumbel}(q_i))+ (1-y_i) \log(1-\eta_{Gumbel}(q_i)) GCE(ηGumbel(qi),yi)=−yilog(ηGumbel(qi))+(1−yi)log(1−ηGumbel(qi))

特点:

  • 不对称的 :如上图所示,Gumbel 激活是不对称的。这意味着正梯度(即 y = 1 时)的取值范围为(-∞,0),而负梯度(即 y = 0 时)的取值范围为(0,1)。这是一个有益的特性,它允许正反馈指数增长,同时抑制负反馈。这在长尾分类中尤其有用,因为稀有类别的正反馈很少。

经作者论文的实验验证,Gumbel Cross Entropy在目标检测分割领域效果很好。但是还未经过大量实验和现实生活中的实验验证。。。。

3. 总结

到此,使用 激活函数总结(四十二) 已经介绍完毕了!!! 如果有什么疑问欢迎在评论区提出,对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!!!!

如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

相关推荐
阿正的梦工坊9 分钟前
ALiBi:让大语言模型“免训练“外推到更长序列的位置编码方法
人工智能·语言模型·自然语言处理
老纪17 分钟前
SQL中如何查找特定的空值行:WHERE IS NULL深度解析
jvm·数据库·python
极客老王说Agent20 分钟前
2026供应链革命:实在Agent货物智能入库智能助理使用方法与库位优化全指南
人工智能·ai
沪漂阿龙20 分钟前
面试题:训练-蒸馏详解——知识蒸馏、Teacher-Student、强弱蒸馏、Qwen3 强到弱蒸馏流程全解析
人工智能·深度学习·机器学习
噜噜噜阿鲁~24 分钟前
python学习笔记 | 10.0、面向对象编程
笔记·python·学习
凌波粒30 分钟前
什么是 MCP(模型上下文协议)
人工智能·网络协议·aigc
weixin1997010801633 分钟前
[特殊字符] RESTful API 接口规范详解:构建高效、可扩展的 Web 服务(附 Python 源码)
前端·python·restful
txg66634 分钟前
HgtJIT:基于异构图 Transformer 的即时漏洞检测框架
人工智能·深度学习·安全·transformer
IT研究所39 分钟前
AI 时代下的知识管理:从 Claude 的“复盘”能力看生成式 AI价值
大数据·运维·数据库·人工智能·科技·低代码·自然语言处理
2301_781571421 小时前
mysql数据库响应缓慢如何排查_使用EXPLAIN分析执行计划
jvm·数据库·python