激活函数对比大全

激活函数的作用

激活函数为神经网络引入非线性,使模型能够学习复杂模式。不同激活函数在梯度传播、计算效率、输出范围等方面存在差异,直接影响训练效果。

常见激活函数对比

Sigmoid
  • 公式 :
    ( \sigma(x) = \frac{1}{1 + e^{-x}} )
  • 优点 :
    输出范围在(0,1),适合二分类问题的输出层。
  • 缺点 :
    易导致梯度消失(梯度在反向传播时趋近于0);计算量较大。
Tanh
  • 公式 :
    ( \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} )
  • 优点 :
    输出范围(-1,1),中心对称,梯度收敛比Sigmoid更快。
  • 缺点 :
    仍存在梯度消失问题。
ReLU (Rectified Linear Unit)
  • 公式 :
    ( \text{ReLU}(x) = \max(0, x) )
  • 优点 :
    计算高效;缓解梯度消失(正区间梯度恒为1)。
  • 缺点 :
    "神经元死亡"问题(负区间梯度为0,部分神经元可能永久失效)。
Leaky ReLU
  • 公式 :
    ( \text{LeakyReLU}(x) = \begin{cases} x & \text{if } x \geq 0 \ \alpha x & \text{if } x < 0 \end{cases} )
    (通常 ( \alpha = 0.01 ))
  • 优点 :
    解决ReLU的"神经元死亡"问题,负区间引入微小梯度。
  • 缺点 :
    需要手动调整 ( \alpha ) 超参数。
ELU (Exponential Linear Unit)
  • 公式 :
    ( \text{ELU}(x) = \begin{cases} x & \text{if } x \geq 0 \ \alpha(e^x - 1) & \text{if } x < 0 \end{cases} )
  • 优点 :
    负区间平滑收敛,缓解梯度消失;输出均值接近0,加速训练。
  • 缺点 :
    计算复杂度较高(涉及指数运算)。
Swish
  • 公式 :
    ( \text{Swish}(x) = x \cdot \sigma(\beta x) )
    (( \sigma )为Sigmoid函数,( \beta )可学习或固定)
  • 优点 :
    平滑非单调,实验显示在深层网络中表现优于ReLU。
  • 缺点 :
    计算量较大(包含Sigmoid运算)。

选择建议

  • 隐藏层: 优先使用ReLU或其变体(Leaky ReLU、ELU),平衡效率与性能。
  • 输出层 :
    • 二分类:Sigmoid
    • 多分类:Softmax
    • 回归:线性激活(无激活函数)或Tanh(输出需归一化时)。
  • 实验调优: 深层网络可尝试Swish或GELU(高斯误差线性单元)。

梯度对比示例

以反向传播为例:

  • ReLU梯度 :
    ( \frac{d}{dx}\text{ReLU}(x) = \begin{cases} 1 & \text{if } x > 0 \ 0 & \text{if } x \leq 0 \end{cases} )
  • Tanh梯度 :
    ( \frac{d}{dx}\tanh(x) = 1 - \tanh^2(x) )

通过对比可见,ReLU在正区间的梯度稳定性更优,而Tanh的梯度随输入变化剧烈。

相关推荐
童话名剑20 小时前
人脸识别(吴恩达深度学习笔记)
人工智能·深度学习·人脸识别·siamese网络·三元组损失函数
Dev7z21 小时前
基于深度学习的车辆分类方法研究与实现-填补国内新能源车型和品牌识别空白
深度学习·yolo
谢的2元王国1 天前
这是跑通实用rag的日志记录 重点关注一点 句子向量化模型的选择 以及召回结果后 重排交叉编码的精进
人工智能·深度学习
Blossom.1181 天前
AI Agent的长期记忆革命:基于向量遗忘曲线的动态压缩系统
运维·人工智能·python·深度学习·自动化·prompt·知识图谱
岑梓铭1 天前
YOLO深度学习(计算机视觉)—毕设笔记1(介绍篇)
深度学习·yolo·目标检测·计算机视觉
ldccorpora1 天前
GALE Phase 1 Chinese Broadcast News Parallel Text - Part 1数据集介绍,官网编号LDC2007T23
人工智能·深度学习·算法·机器学习·自然语言处理
AI人工智能+1 天前
表格识别技术:实现复杂表格内容的精准解析与表格结构的版面还原,推动档案管理从数字化存储向智能化服务转型
深度学习·ocr·表格识别
Hcoco_me1 天前
大模型面试题75:讲解一下GRPO的数据回放
人工智能·深度学习·算法·机器学习·vllm
高洁011 天前
AIGC技术与进展(1)
深度学习·算法·机器学习·transformer·知识图谱
PeterClerk1 天前
计算机视觉常用指标(Metrics)速查与解释(持续更新)
人工智能·python·深度学习·计算机视觉·benchmark·评测