激活函数对比大全

最晚的py2025-12-28 10:28

激活函数的作用

激活函数为神经网络引入非线性，使模型能够学习复杂模式。不同激活函数在梯度传播、计算效率、输出范围等方面存在差异，直接影响训练效果。

常见激活函数对比

Sigmoid

公式 :
( \sigma(x) = \frac{1}{1 + e^{-x}} )
优点 :
输出范围在(0,1)，适合二分类问题的输出层。
缺点 :
易导致梯度消失（梯度在反向传播时趋近于0）；计算量较大。

Tanh

公式 :
( \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} )
优点 :
输出范围(-1,1)，中心对称，梯度收敛比Sigmoid更快。
缺点 :
仍存在梯度消失问题。

ReLU (Rectified Linear Unit)

公式 :
( \text{ReLU}(x) = \max(0, x) )
优点 :
计算高效；缓解梯度消失（正区间梯度恒为1）。
缺点 :
"神经元死亡"问题（负区间梯度为0，部分神经元可能永久失效）。

Leaky ReLU

公式 :
( \text{LeakyReLU}(x) = \begin{cases} x & \text{if } x \geq 0 \ \alpha x & \text{if } x < 0 \end{cases} )
（通常 ( \alpha = 0.01 )）
优点 :
解决ReLU的"神经元死亡"问题，负区间引入微小梯度。
缺点 :
需要手动调整 ( \alpha ) 超参数。

ELU (Exponential Linear Unit)

公式 :
( \text{ELU}(x) = \begin{cases} x & \text{if } x \geq 0 \ \alpha(e^x - 1) & \text{if } x < 0 \end{cases} )
优点 :
负区间平滑收敛，缓解梯度消失；输出均值接近0，加速训练。
缺点 :
计算复杂度较高（涉及指数运算）。

Swish

公式 :
( \text{Swish}(x) = x \cdot \sigma(\beta x) )
（( \sigma )为Sigmoid函数，( \beta )可学习或固定）
优点 :
平滑非单调，实验显示在深层网络中表现优于ReLU。
缺点 :
计算量较大（包含Sigmoid运算）。

选择建议

隐藏层: 优先使用ReLU或其变体（Leaky ReLU、ELU），平衡效率与性能。
输出层 :
- 二分类：Sigmoid
- 多分类：Softmax
- 回归：线性激活（无激活函数）或Tanh（输出需归一化时）。
实验调优: 深层网络可尝试Swish或GELU（高斯误差线性单元）。

梯度对比示例

以反向传播为例：

ReLU梯度 :
( \frac{d}{dx}\text{ReLU}(x) = \begin{cases} 1 & \text{if } x > 0 \ 0 & \text{if } x \leq 0 \end{cases} )
Tanh梯度 :
( \frac{d}{dx}\tanh(x) = 1 - \tanh^2(x) )

通过对比可见，ReLU在正区间的梯度稳定性更优，而Tanh的梯度随输入变化剧烈。

上一篇：CFD，GPU加速效果，FUN3D GPU移植加速效果2

下一篇：2026 年年度工作计划 PPT：AI 自动生成方案横向对比

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 09Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚 102026 年 AI 大模型 & AI 编程工具实战全总结