激活函数总结(四十二):激活函数补充(SSFG、Gumbel Cross Entropy)

激活函数总结(四十二):激活函数补充

  • [1 引言](#1 引言)
  • [2 激活函数](#2 激活函数)
    • [2.1 SSFG激活函数](#2.1 SSFG激活函数)
    • [2.2 Gumbel Cross Entropy激活函数](#2.2 Gumbel Cross Entropy激活函数)
  • [3. 总结](#3. 总结)

1 引言

前面的文章中已经介绍了介绍了一系列激活函数 (SigmoidTanhReLULeaky ReLUPReLUSwishELUSELUGELUSoftmaxSoftplusMishMaxoutHardSigmoidHardTanhHardswishHardShrinkSoftShrinkTanhShrinkRReLUCELUReLU6GLUSwiGLUGTUBilinearReGLUGEGLUSoftminSoftmax2dLogsoftmaxIdentityLogSigmoidBent IdentityAbsoluteBipolarBipolar SigmoidSinusoidCosineArcsinhArccoshArctanhLeCun TanhTanhExpGaussianGCUASUSQUNCUDSUSSUSReLUBReLUPELUPhishRBFSQ-RBFISRUISRLUSQNLPLUAPLInverse CubicSoft ExponentialParametricLinearPiecewise Linear UnitCLLSquaredReLUModReLUCosReLUSinReLUProbitSmishMultiquadraticInvMultiquadraticPSmishESwishCoLUShiftedSoftPlusLogitSoftsignELiSHHard ELiSHSerfFReLUQReLUm-QReLUFReLUCReLUKAFSirenARiAm-arcsinhPAUDELUPDELUCosLUNFNHermiteAHAFSERLUShiLUReLUN)。在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。这里放一张激活函数的机理图:

2 激活函数

2.1 SSFG激活函数

论文链接:SSFG: Stochastically Scaling Features and Gradients for Regularizing Graph Convolutional Networks

Stochastically Scaling Features and Gradients (SSFG) 是一种随机正则化方法,用来解决过度平滑问题。在所提出的方法中,我们通过从训练过程中的概率分布中抽样的因子随机缩放特征梯度(SSFG)。通过显式应用比例因子破坏特征收敛,可以缓解过度平滑问题。其算法和数学图像分别如下所示:


特点:

  • 实验结果表明,在梯度级别应用随机缩放与在特征级别应用随机缩放是互补的,以提高整体性能。
  • SSFG方法不会增加训练参数的数量。

SSFG在图神经网络上具有很好的效果,但是其在各个任务上具体表现仍有待商议。。。 使用的时候需要注意。。。

2.2 Gumbel Cross Entropy激活函数

论文链接:Long-tailed Instance Segmentation using Gumbel Optimized Loss

背景: 最近在目标检测和分割领域取得了重大进展。然而,当涉及到稀有类别时,最先进的方法无法检测到它们,导致稀有类别和频繁类别之间的性能差距很大。在本文中,我们发现深度探测器中使用的Sigmoid或Softmax功能是性能低主要原因,并且对于长尾检测和分割来说是次优的。为了解决这个问题,我们开发了一种Gumbel优化损失(GOL),用于长尾检测和分割。

Gumbel 激活函数,使用累积 Gumbel 分布定义,可用于执行 Gumbel 回归。Gumbel 激活是 sigmoid 或 softmax 激活函数的替代激活函数,可用于将模型的优标准化输出转换为概率Gumbel 激活的数学表达式如下所示:
η G u m b e l ( q i ) = e x p ( − e x p ( − q i ) ) \eta_{Gumbel}(q_i) = exp(-exp(-q_i)) ηGumbel(qi)=exp(−exp(−qi))

它可以与交叉熵损失函数结合使用,以解决长尾分类问题。Gumbel Cross Entropy(GCE)的定义如下:
G C E ( η G u m b e l ( q i ) , y i ) = − y i log ⁡ ( η G u m b e l ( q i ) ) + ( 1 − y i ) log ⁡ ( 1 − η G u m b e l ( q i ) ) GCE(\eta_{Gumbel}(q_i),y_i) = -y_i \log(\eta_{Gumbel}(q_i))+ (1-y_i) \log(1-\eta_{Gumbel}(q_i)) GCE(ηGumbel(qi),yi)=−yilog(ηGumbel(qi))+(1−yi)log(1−ηGumbel(qi))

特点:

  • 不对称的 :如上图所示,Gumbel 激活是不对称的。这意味着正梯度(即 y = 1 时)的取值范围为(-∞,0),而负梯度(即 y = 0 时)的取值范围为(0,1)。这是一个有益的特性,它允许正反馈指数增长,同时抑制负反馈。这在长尾分类中尤其有用,因为稀有类别的正反馈很少。

经作者论文的实验验证,Gumbel Cross Entropy在目标检测分割领域效果很好。但是还未经过大量实验和现实生活中的实验验证。。。。

3. 总结

到此,使用 激活函数总结(四十二) 已经介绍完毕了!!! 如果有什么疑问欢迎在评论区提出,对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!!!!

如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

相关推荐
一次旅行3 小时前
HyperTool:突破传统工具调用限制,让Agent更高效执行复杂任务
人工智能
陈天伟教授4 小时前
图解人工智能(58)人工智能应用-围棋国手
人工智能·语音识别·机器翻译
闻道参看4 小时前
2026年AI优质企业培训系统综合测评:合规管控/数据量化
人工智能
老毛肚4 小时前
jeecg-boot-base-core 02 day
javascript·python
yaoxin5211234 小时前
434. Java 日期时间 API - Period 基于日期的时间段
java·开发语言·python
老虾头4 小时前
科技贴近烟火:本地化 AI,赋能各行各业日常经营
人工智能
毒爪的小新4 小时前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
老大白菜4 小时前
25美元,DIY开源可穿戴智能AI眼镜:Arduino+乐鑫ESP32+DeepSeek项目
人工智能
DreamLife☼5 小时前
OpenBCI-脑机接口在康复医疗中的应用
深度学习·cnn·脑电·康复·fes·openbci·外骨骼