1,从神经网络最开始的图像识别的阶跃函数到sigmoid到tanh函数再到ReLU函数再到针对ReLU的各种变换函数
为了"拯救"坏死的神经元,研究者们从ReLU的负半轴入手:
Leaky ReLU / PReLU / RReLU:给负半轴一个很小的、甚至可学习的斜率,让信息仍能流过"死亡"的神经元。
ELU:结合了ReLU正半轴无饱和与负半轴软饱和的特性,能使输出的均值更接近0,从而加速收敛。但计算引入了指数运算,比ReLU慢。
SELU:在ELU的基础上增加了缩放因子,进一步让网络在训练中能够自归一化,在某些架构下表现优
探索期:自动搜索与平滑时代 (2017 - 至今)
研究者不再单纯手工设计,而是借助自动搜索技术寻找更优的激活函数,思路转向追求更平滑的曲线。
Swish:由Google通过自动搜索发现,形式为 f(x) = x * sigmoid(x)。它具备自门控、非单调、平滑可导等特性。当β=1时,它也叫SiLU。在深层模型上,Swish常常能带来比ReLU更好的性能。
GELU:基于Dropout思想设计的概率型激活函数,在BERT、GPT等主流Transformer模型中广泛使用。它比ReLU更平滑,是当前NLP领域的首选之一。
Mish:由x * tanh(softplus(x))定义,设计理念和Swish类似,追求平滑和自正则化,在某些视觉任务上表现出色,但计算成本更高。