深度学习(十二):多种激活函数

在深度学习模型中,激活函数(Activation Function)扮演着至关重要的角色。它决定了神经网络的非线性建模能力。若无激活函数,深层神经网络仅能退化为线性变换的堆叠,即使网络再深,最终也只能表示线性映射,无法有效地拟合复杂的非线性问题。因此,激活函数不仅是神经网络区别于传统线性模型的关键,而且直接影响训练的收敛速度、梯度传播情况以及模型的最终性能。

常见激活函数

Sigmoid 函数

定义

特点

  • 输出范围在 (0,1),可看作概率。
  • 在 0 附近较为敏感,两端趋于饱和。

优点

  • 直观,输出值稳定在区间内。
  • 适合二分类任务的最后一层。

缺点

  • 容易出现梯度消失问题,大的正负输入梯度接近 0。
  • 非零均值,可能导致训练收敛慢。

应用:早期神经网络(如BP网络)、逻辑回归输出层。

Tanh 函数

定义

特点

  • 输出范围 (-1,1),零均值。

优点

  • 相比 Sigmoid,数据分布更居中,收敛更快。
  • 对负输入也有激活效果。

缺点

  • 同样存在梯度消失问题。
  • 饱和区会使参数更新停滞。

应用:RNN 等循环神经网络中常用。

ReLU 函数

定义

特点

  • 简单高效,非线性显著。

优点

  • 计算简单,加速训练收敛。
  • 避免梯度消失(正区间梯度恒为1)。

缺点

  • "神经元死亡"问题:若长期输入为负,梯度为 0,权重无法更新。
  • 输出非零均值。

应用:CNN、MLP 中最常用的激活函数。

Leaky ReLU

定义

其中 α 是一个小常数(如0.01)。

优点

  • 缓解了 ReLU 神经元死亡问题。
  • 保留了负区间的微弱梯度。

缺点

  • 超参数 α 需要手动设定。

应用:目标检测、图像分类等深度 CNN 模型。

Parametric ReLU (PReLU)

定义:与 Leaky ReLU 类似,但 α\alphaα 作为可学习参数。

优点

  • 自适应地调整负区间斜率。
  • 在某些图像识别任务中能提升精度。

缺点

  • 增加了参数量,可能过拟合。

Exponential Linear Unit (ELU)

定义

优点

  • 输出均值更接近零。
  • 负区间平滑,有助于梯度流动。

缺点

  • 计算比 ReLU 更复杂。
  • α 超参数需调节。

Swish

定义

特点:由 Google 提出,兼具平滑性与非线性。

优点

  • 无硬拐点,梯度流动更稳定。
  • 在深层模型中往往优于 ReLU。

缺点

  • 计算开销稍大。

应用:BERT、EfficientNet 等大型模型。

Gaussian Error Linear Unit (GELU)

定义

其中 Φ(x) 是标准正态分布的累积分布函数。

特点

  • 与 Swish 类似,但来源于概率建模。
  • 近似形式为:

优点

  • 在 Transformer 等模型中效果优异。
  • 平滑且自带概率特性。

缺点

  • 计算比 ReLU 复杂。

应用:GPT、BERT、Vision Transformer 等现代大模型。

Softmax

定义

特点

  • 将向量映射为概率分布。

优点

  • 多分类任务输出必不可少。
  • 与交叉熵损失结合自然。

缺点

  • 容易数值溢出,需要做数值稳定处理。
  • 不适合作为隐藏层激活。

激活函数比较

函数 输出范围 是否零均值 梯度消失 主要问题 典型应用
Sigmoid (0,1) 饱和、梯度消失 二分类输出层
Tanh (-1,1) 饱和 RNN
ReLU [0,∞) 神经元死亡 CNN/MLP
Leaky ReLU (-∞,∞) 较少 超参数 改进 CNN
PReLU (-∞,∞) 较少 过拟合风险 图像识别
ELU (-α,∞) 近似是 较少 计算复杂 深层网络
Swish (-∞,∞) 近似是 计算复杂 NLP/CNN
GELU (-∞,∞) 近似是 计算复杂 Transformer
Softmax (0,1) - 数值稳定性 分类输出层

总结

激活函数是深度学习网络的"非线性引擎"。从 Sigmoid 到 ReLU,再到 Swish 与 GELU,激活函数的演化体现了深度学习对梯度消失、收敛速度和表达能力的持续优化。当前主流模型多采用 ReLU 及其改进型,而在自然语言处理和计算机视觉的前沿任务中,Swish 与 GELU 已逐渐成为标配。

相关推荐
老刘干货10 小时前
Prompt工程全解·第四篇:精雕细琢——迭代优化与防御性提示词设计
人工智能·技术人
輕華10 小时前
OpenCV答题卡识别:从图像预处理到自动评分
人工智能·opencv·计算机视觉
JQLvopkk10 小时前
机器视觉为何不用普通相机
人工智能·数码相机
AI航向标10 小时前
OpenClaw 完整本地部署安装(接入飞书)
人工智能·飞书·openclaw
接着奏乐接着舞。10 小时前
机器学习经验总结整理
人工智能·机器学习
Sim148010 小时前
iPhone将内置本地大模型,手机端AI实现0 token成本时代来临?
人工智能·ios·智能手机·iphone
AI航向标10 小时前
Openclaw一键本地部署接入豆包
人工智能·openclaw
就是这么拽呢10 小时前
论文查重低但AIGC率高,如何补救?
论文阅读·人工智能·ai·aigc
supericeice10 小时前
创邻科技 AI智算一体机:支持 DeepSeek 671B 与 Qwen3 单机部署,覆盖纯CPU到多GPU多机扩展
大数据·人工智能·科技
لا معنى له11 小时前
Var-JEPA:联合嵌入预测架构的变分形式 —— 连接预测式与生成式自监督学习 ----论文翻译
人工智能·笔记·学习·语言模型