深度学习基础知识总结(二):激活函数(Activation Function)详解

在上一篇文章中,我们详细讲解了卷积(Convolution)的基本原理,知道了它如何从图像中提取出边缘、纹理、形状等特征。
但如果神经网络中
只有卷积层和线性运算
,那无论堆叠多少层,它本质上仍然是一个"线性模型"。

这样的网络------只能画直线,不能画曲线。

而现实世界是非线性的:

  • 猫的图像和狗的图像差别不是像素线性组合能表达的;

  • 声音、文本、视频等复杂数据中存在大量非线性特征;

  • 深度学习的强大之处,就在于它能自动捕捉这些非线性模式。

所以,我们需要一个"让网络弯起来"的工具------

这就是 激活函数(Activation Function)


一、为什么要用激活函数?

我们先看一个没有激活函数的网络:

如果我们展开,会发现这是一个线性变换:

换句话说,两个线性层叠加起来依旧是一个线性函数。

那三层、十层、甚至一百层呢?

------没错,还是线性函数

没有激活函数的神经网络 = 再深也学不会复杂的函数。

激活函数的引入,使网络具备"非线性拟合能力",能学习图像、语言、语音等复杂关系。

它让神经网络从"直线大脑"进化成"曲线大脑"。


二、激活函数的作用总结

激活函数主要起以下三个作用:

  1. 引入非线性特征:让网络能拟合复杂的函数关系。

  2. 限制输出范围:防止数值爆炸,提高稳定性。

  3. 提供梯度:便于反向传播(求导更新参数)。

在神经网络中,每个神经元的计算可写为:

其中**f(⋅)**就是激活函数。

三、常见激活函数详解

1️⃣ Sigmoid 函数

公式:

特点:

  • 输出范围:(0,1)(0, 1)(0,1)

  • 形状:S 形曲线,输入越大输出越接近 1,输入越小输出越接近 0。

  • 常用于二分类问题的输出层。

优点:

  • 具有概率意义:输出可以被解释为"属于正类的概率"。

  • 平滑且单调。

缺点:

  • 当输入过大或过小时,梯度接近 0,容易出现梯度消失

  • 输出非零均值,训练收敛慢。

  • 计算较复杂(需要指数运算)。

📊 直观理解:

Sigmoid 就像一个"压缩器",把任意数值压到 0~1 之间。

但压得太狠了,信息会"卡住",导致网络更新慢。

2️⃣ Tanh(双曲正切函数)

公式:

特点:

  • 输出范围:(−1,1)(-1, 1)(−1,1)

  • 零均值输出,收敛速度比 Sigmoid 更快。

优点:

  • 能保留输入的符号信息(正负);

  • 相对 Sigmoid,不会导致神经元全部输出正值。

缺点:

  • 同样存在梯度消失问题(在 ∣x∣>2|x| > 2∣x∣>2 区域梯度趋近 0)。

📈 直觉类比:

Tanh 就像 Sigmoid 的"升级版"------它让输出可以为负数,信息分布更平衡。

在早期 RNN 网络(如 LSTM)中非常常见。

3️⃣ ReLU(Rectified Linear Unit)

公式:

特点:

  • 当 x>0:输出等于输入;

  • 当 x≤0:输出为 0。

  • 输出范围:[0, +∞)

优点:

  • 计算简单;

  • 不存在指数运算;

  • 梯度恒为 1,不会梯度消失(在正区间);

  • 能加速收敛,使网络更稀疏(部分神经元输出 0)。

缺点:

  • 当输入为负时梯度为 0,神经元可能"死掉"(即永远输出 0)。

📘 形象理解:

ReLU 就像一个"单向阀门"------只让正信号通过,负信号一律屏蔽。

这既加快了计算,又保留了有意义的激活。

💡 应用场景:

目前几乎所有 CNN、Transformer 的隐藏层都默认使用 ReLU。

4️⃣ Leaky ReLU / Parametric ReLU

公式:

其中 α 通常取 0.01,或者作为可学习参数(PReLU)。

特点:

  • 改进 ReLU 的"神经元死亡"问题;

  • 让负区间也有微弱梯度,不完全丢弃信息。

使用建议:

  • 当发现训练中大量神经元输出恒为 0 时,试试 Leaky ReLU;

  • PReLU 在轻量化网络中(如 MobileNet)常见。


5️⃣ ELU / SELU(指数线性单元)

ELU 公式:

特点:

  • 负区间平滑过渡,输出有负值;

  • 输出均值更接近 0;

  • 训练稳定性较好。

SELU 是在 ELU 基础上添加自归一化特性,用于特定网络结构(Self-Normalizing NN)。


6️⃣ Swish / GELU(现代激活函数)

Swish(Google 提出):

GELU(Gaussian Error Linear Unit):

(Φ(x) 为高斯分布的累积分布函数)

特点:

  • 平滑且可微;

  • 在 Transformer、BERT 等大型模型中普遍使用;

  • 表现往往优于 ReLU。

📊 理解:

Swish / GELU 可以看作是"带柔性阀门的 ReLU"------比 ReLU 更细腻,梯度流动更平滑。

四、激活函数之间的对比

激活函数 输出范围 零均值 是否有梯度消失 是否稀疏 常见用途
Sigmoid (0, 1) 二分类输出层
Tanh (-1, 1) RNN 隐藏层
ReLU [0, ∞) 否(正区间) CNN 隐藏层
Leaky ReLU (-∞, ∞) 稍弱 改进 ReLU
ELU (-α, ∞) 近似 深层网络
Swish / GELU (-∞, ∞) Transformer / BERT 等

五、如何选择合适的激活函数?

经验总结:

场景 推荐激活函数
卷积神经网络(CNN) ReLU / Leaky ReLU
深层网络(梯度稳定) ELU / GELU
RNN / LSTM 网络 Tanh / Sigmoid
二分类输出层 Sigmoid
多分类输出层 Softmax
大模型(Transformer 等) GELU / Swish

六、激活函数的可视化与代码实践

我们可以用 Python 简单绘制几种激活函数的曲线来直观感受差异 👇

复制代码
import torch
import torch.nn.functional as F
import matplotlib.pyplot as plt

x = torch.linspace(-5, 5, 200)

activations = {
    "Sigmoid": torch.sigmoid(x),
    "Tanh": torch.tanh(x),
    "ReLU": F.relu(x),
    "Leaky ReLU": F.leaky_relu(x, 0.1),
    "Swish": x * torch.sigmoid(x)
}

plt.figure(figsize=(10,6))
for name, y in activations.items():
    plt.plot(x, y, label=name)
plt.legend()
plt.title("常见激活函数曲线对比")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.grid(True)
plt.show()

运行后你会看到:

  • Sigmoid、Tanh 在两端趋于饱和;

  • ReLU 线性且稀疏;

  • Swish/GELU 更平滑。

七、总结

模块 作用
卷积层(Convolution) 提取局部特征
激活函数(Activation) 引入非线性,增加表达能力
池化层(Pooling) 降维,增强鲁棒性

激活函数虽然只是网络中的"一行代码",

却决定了整个网络是否能"思考"。

一个恰当的激活函数,往往能显著提升模型的训练效率和性能。


📚 下一篇预告:

深度学习基础知识总结(三):池化层(Pooling)与特征下采样

我将深入解析最大池化、平均池化的区别,以及它们如何让模型更稳、更强。

有需要的可以点个关注哦!

相关推荐
阿巴~阿巴~2 小时前
NumPy数值分析:从基础到高效运算
人工智能·python·numpy
aneasystone本尊2 小时前
LiteLLM 快速入门
人工智能
大模型实验室Lab4AI2 小时前
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
人工智能·ocr·deepseek-ocr
中科米堆2 小时前
冲压钣金件案例 | 三维扫描3d偏差检测分析解决方案-CASAIM
人工智能·3d·3d全尺寸检测
IT_陈寒2 小时前
React性能优化实战:我用这5个技巧将组件渲染速度提升了70%
前端·人工智能·后端
集成显卡3 小时前
AI取名大师 | uni-app 微信小程序打包 v-bind、component 动态组件问题
人工智能·微信小程序·uni-app
小霖家的混江龙3 小时前
AI 为啥能回答你的问题?大模型 5 步工作流程,看完秒懂!
人工智能·llm
磊磊落落3 小时前
如何使用 Spec Kit 工具进行规范驱动开发?
人工智能
IT阳晨。3 小时前
【神经网络与深度学习(吴恩达)】深度学习概论学习笔记
笔记·深度学习·神经网络