深度学习基础知识总结(二):激活函数(Activation Function)详解

在上一篇文章中,我们详细讲解了卷积(Convolution)的基本原理,知道了它如何从图像中提取出边缘、纹理、形状等特征。
但如果神经网络中
只有卷积层和线性运算
,那无论堆叠多少层,它本质上仍然是一个"线性模型"。

这样的网络------只能画直线,不能画曲线。

而现实世界是非线性的:

  • 猫的图像和狗的图像差别不是像素线性组合能表达的;

  • 声音、文本、视频等复杂数据中存在大量非线性特征;

  • 深度学习的强大之处,就在于它能自动捕捉这些非线性模式。

所以,我们需要一个"让网络弯起来"的工具------

这就是 激活函数(Activation Function)


一、为什么要用激活函数?

我们先看一个没有激活函数的网络:

如果我们展开,会发现这是一个线性变换:

换句话说,两个线性层叠加起来依旧是一个线性函数。

那三层、十层、甚至一百层呢?

------没错,还是线性函数

没有激活函数的神经网络 = 再深也学不会复杂的函数。

激活函数的引入,使网络具备"非线性拟合能力",能学习图像、语言、语音等复杂关系。

它让神经网络从"直线大脑"进化成"曲线大脑"。


二、激活函数的作用总结

激活函数主要起以下三个作用:

  1. 引入非线性特征:让网络能拟合复杂的函数关系。

  2. 限制输出范围:防止数值爆炸,提高稳定性。

  3. 提供梯度:便于反向传播(求导更新参数)。

在神经网络中,每个神经元的计算可写为:

其中**f(⋅)**就是激活函数。

三、常见激活函数详解

1️⃣ Sigmoid 函数

公式:

特点:

  • 输出范围:(0,1)(0, 1)(0,1)

  • 形状:S 形曲线,输入越大输出越接近 1,输入越小输出越接近 0。

  • 常用于二分类问题的输出层。

优点:

  • 具有概率意义:输出可以被解释为"属于正类的概率"。

  • 平滑且单调。

缺点:

  • 当输入过大或过小时,梯度接近 0,容易出现梯度消失

  • 输出非零均值,训练收敛慢。

  • 计算较复杂(需要指数运算)。

📊 直观理解:

Sigmoid 就像一个"压缩器",把任意数值压到 0~1 之间。

但压得太狠了,信息会"卡住",导致网络更新慢。

2️⃣ Tanh(双曲正切函数)

公式:

特点:

  • 输出范围:(−1,1)(-1, 1)(−1,1)

  • 零均值输出,收敛速度比 Sigmoid 更快。

优点:

  • 能保留输入的符号信息(正负);

  • 相对 Sigmoid,不会导致神经元全部输出正值。

缺点:

  • 同样存在梯度消失问题(在 ∣x∣>2|x| > 2∣x∣>2 区域梯度趋近 0)。

📈 直觉类比:

Tanh 就像 Sigmoid 的"升级版"------它让输出可以为负数,信息分布更平衡。

在早期 RNN 网络(如 LSTM)中非常常见。

3️⃣ ReLU(Rectified Linear Unit)

公式:

特点:

  • 当 x>0:输出等于输入;

  • 当 x≤0:输出为 0。

  • 输出范围:[0, +∞)

优点:

  • 计算简单;

  • 不存在指数运算;

  • 梯度恒为 1,不会梯度消失(在正区间);

  • 能加速收敛,使网络更稀疏(部分神经元输出 0)。

缺点:

  • 当输入为负时梯度为 0,神经元可能"死掉"(即永远输出 0)。

📘 形象理解:

ReLU 就像一个"单向阀门"------只让正信号通过,负信号一律屏蔽。

这既加快了计算,又保留了有意义的激活。

💡 应用场景:

目前几乎所有 CNN、Transformer 的隐藏层都默认使用 ReLU。

4️⃣ Leaky ReLU / Parametric ReLU

公式:

其中 α 通常取 0.01,或者作为可学习参数(PReLU)。

特点:

  • 改进 ReLU 的"神经元死亡"问题;

  • 让负区间也有微弱梯度,不完全丢弃信息。

使用建议:

  • 当发现训练中大量神经元输出恒为 0 时,试试 Leaky ReLU;

  • PReLU 在轻量化网络中(如 MobileNet)常见。


5️⃣ ELU / SELU(指数线性单元)

ELU 公式:

特点:

  • 负区间平滑过渡,输出有负值;

  • 输出均值更接近 0;

  • 训练稳定性较好。

SELU 是在 ELU 基础上添加自归一化特性,用于特定网络结构(Self-Normalizing NN)。


6️⃣ Swish / GELU(现代激活函数)

Swish(Google 提出):

GELU(Gaussian Error Linear Unit):

(Φ(x) 为高斯分布的累积分布函数)

特点:

  • 平滑且可微;

  • 在 Transformer、BERT 等大型模型中普遍使用;

  • 表现往往优于 ReLU。

📊 理解:

Swish / GELU 可以看作是"带柔性阀门的 ReLU"------比 ReLU 更细腻,梯度流动更平滑。

四、激活函数之间的对比

激活函数 输出范围 零均值 是否有梯度消失 是否稀疏 常见用途
Sigmoid (0, 1) 二分类输出层
Tanh (-1, 1) RNN 隐藏层
ReLU [0, ∞) 否(正区间) CNN 隐藏层
Leaky ReLU (-∞, ∞) 稍弱 改进 ReLU
ELU (-α, ∞) 近似 深层网络
Swish / GELU (-∞, ∞) Transformer / BERT 等

五、如何选择合适的激活函数?

经验总结:

场景 推荐激活函数
卷积神经网络(CNN) ReLU / Leaky ReLU
深层网络(梯度稳定) ELU / GELU
RNN / LSTM 网络 Tanh / Sigmoid
二分类输出层 Sigmoid
多分类输出层 Softmax
大模型(Transformer 等) GELU / Swish

六、激活函数的可视化与代码实践

我们可以用 Python 简单绘制几种激活函数的曲线来直观感受差异 👇

复制代码
import torch
import torch.nn.functional as F
import matplotlib.pyplot as plt

x = torch.linspace(-5, 5, 200)

activations = {
    "Sigmoid": torch.sigmoid(x),
    "Tanh": torch.tanh(x),
    "ReLU": F.relu(x),
    "Leaky ReLU": F.leaky_relu(x, 0.1),
    "Swish": x * torch.sigmoid(x)
}

plt.figure(figsize=(10,6))
for name, y in activations.items():
    plt.plot(x, y, label=name)
plt.legend()
plt.title("常见激活函数曲线对比")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.grid(True)
plt.show()

运行后你会看到:

  • Sigmoid、Tanh 在两端趋于饱和;

  • ReLU 线性且稀疏;

  • Swish/GELU 更平滑。

七、总结

模块 作用
卷积层(Convolution) 提取局部特征
激活函数(Activation) 引入非线性,增加表达能力
池化层(Pooling) 降维,增强鲁棒性

激活函数虽然只是网络中的"一行代码",

却决定了整个网络是否能"思考"。

一个恰当的激活函数,往往能显著提升模型的训练效率和性能。


📚 下一篇预告:

深度学习基础知识总结(三):池化层(Pooling)与特征下采样

我将深入解析最大池化、平均池化的区别,以及它们如何让模型更稳、更强。

有需要的可以点个关注哦!

相关推荐
Luminbox紫创测控19 小时前
汽车自动驾驶的太阳光模拟应用研究
人工智能·自动驾驶·汽车
吴佳浩1 天前
大模型量化部署终极指南:让700亿参数的AI跑进你的显卡
人工智能·python·gpu
跨境卫士苏苏1 天前
亚马逊AI广告革命:告别“猜心”,迎接“共创”时代
大数据·人工智能·算法·亚马逊·防关联
珠海西格电力1 天前
零碳园区工业厂房光伏一体化(BIPV)基础规划
大数据·运维·人工智能·智慧城市·能源
土星云SaturnCloud1 天前
不止是替代:从机械风扇的可靠性困局,看服务器散热技术新范式
服务器·网络·人工智能·ai
小马爱打代码1 天前
Spring AI:搭建自定义 MCP Server:获取 QQ 信息
java·人工智能·spring
你们补药再卷啦1 天前
ai(三)环境资源管理
人工智能·语言模型·电脑
飞哥数智坊1 天前
GLM-4.6V 初探:国产 AI 能边写边自己配图了
人工智能·chatglm (智谱)
杰克逊的日记1 天前
大模型的原理是什么
人工智能·大模型·gpu·算力
智算菩萨1 天前
AI在智能制造中的落地:从预测维护到自适应生产调度
人工智能·制造