神经网络激活函数进化

1，从神经网络最开始的图像识别的阶跃函数到sigmoid到tanh函数再到ReLU函数再到针对ReLU的各种变换函数

为了"拯救"坏死的神经元，研究者们从ReLU的负半轴入手：

Leaky ReLU / PReLU / RReLU：给负半轴一个很小的、甚至可学习的斜率，让信息仍能流过"死亡"的神经元。

ELU：结合了ReLU正半轴无饱和与负半轴软饱和的特性，能使输出的均值更接近0，从而加速收敛。但计算引入了指数运算，比ReLU慢。

SELU：在ELU的基础上增加了缩放因子，进一步让网络在训练中能够自归一化，在某些架构下表现优

探索期：自动搜索与平滑时代 (2017 - 至今)

研究者不再单纯手工设计，而是借助自动搜索技术寻找更优的激活函数，思路转向追求更平滑的曲线。

Swish：由Google通过自动搜索发现，形式为 f(x) = x * sigmoid(x)。它具备自门控、非单调、平滑可导等特性。当β=1时，它也叫SiLU。在深层模型上，Swish常常能带来比ReLU更好的性能。

GELU：基于Dropout思想设计的概率型激活函数，在BERT、GPT等主流Transformer模型中广泛使用。它比ReLU更平滑，是当前NLP领域的首选之一。

Mish：由x * tanh(softplus(x))定义，设计理念和Swish类似，追求平滑和自正则化，在某些视觉任务上表现出色，但计算成本更高。