激活函数在神经网络中的作用,以及Tramformer中的激活函数

激活函数在神经网络中的作用

一、引入非线性特征

激活函数的主要作用之一是引入非线性特征,这是神经网络能够处理复杂任务的关键。如果没有激活函数,多层神经网络将退化为单个线性变换,无法捕捉数据中的非线性关系。而激活函数通过非线性映射,使得神经网络能够学习复杂的模式和关系,从而具备解决复杂分类或回归问题的能力。

二、解决梯度消失问题

在深层神经网络中,梯度消失是一个常见的问题。梯度消失指的是在反向传播过程中,梯度逐渐变得非常小,导致参数无法得到有效更新。通过使用激活函数,如ReLU及其变体,可以帮助缓解梯度消失问题。这些激活函数在输入为正时具有恒定的导数,从而避免了梯度在反向传播过程中的急剧下降。

三、增加网络的表达能力

不同的激活函数可以给神经网络带来不同的表达能力。例如,ReLU激活函数可以帮助网络学习稀疏表示,即在网络中激活的神经元相对较少,这有助于减少过拟合。而Sigmoid和Tanh激活函数则可以将输出限制在一定范围内,使得神经网络的输出更加稳定。此外,一些激活函数如Leaky ReLU和PReLU等,还可以帮助网络学习更好的抑制性特征,进一步提高网络的表达能力。

四、稀疏性和抑制性

某些激活函数如ReLU及其变体具有稀疏性,即在神经网络中激活的神经元相对较少。这种稀疏性有助于减少参数数量,降低过拟合的风险,并提高模型的泛化能力。另外,一些激活函数如Leaky ReLU还可以帮助网络学习更好的抑制性特征,即对于不重要的输入,网络能够给予较小的权重,从而抑制其影响。

五、影响模型的训练速度和性能

激活函数的选择还会影响模型的训练速度和性能。例如,Sigmoid函数虽然具有平滑连续的特性,但其计算涉及指数运算,相对复杂,可能会影响模型的训练速度。而ReLU函数则具有计算简单、效率高的优点,适合大规模深度学习模型。此外,一些激活函数如ELU和SELU等,还具有自归一化的特性,可以加速模型的收敛速度并提高性能。

Tramformer中的激活函数

一、GELU激活函数

  1. 定义与数学表达式

    GELU激活函数的全称是高斯误差线性单元,其数学表达式为GELU(x) = x * Φ(x),其中Φ(x)是标准正态分布的累积分布函数(CDF)。这个函数最初由Dan Hendrycks和Kevin Gimpel在2016年提出。

  2. 特点

    • 平滑性与非线性:GELU函数是一个平滑且非线性的函数,这使得模型在训练过程中更加稳定,且能够捕获输入数据的复杂特征。
    • 避免梯度消失:与ReLU函数相比,GELU在输入值接近原点时具有非零梯度,这有助于减少训练过程中的梯度消失问题。
    • 连续导数:GELU函数的导数是连续的,这有助于模型在反向传播过程中更加稳定地更新参数。
  3. 在Transformer中的应用

    GELU作为激活函数,在Transformer模型的自注意力机制和前馈网络部分中被广泛使用。它有助于提高模型的表达能力和训练效率。

代码:

python 复制代码
import torch
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt

# 创建一个从-10到10的输入值范围(包含400个点),并转换为PyTorch张量
x_values = torch.linspace(-10, 10, 400)

# 计算GELU激活
y_values = F.gelu(x_values)

# 将PyTorch张量转换回NumPy数组,以便与matplotlib一起使用
x_values_np = x_values.numpy()
y_values_np = y_values.numpy()

# 创建并显示GELU曲线的图
plt.figure(figsize=(8, 6))
plt.plot(x_values_np, y_values_np, label='GELU')
plt.title('GELU Activation Function')
plt.xlabel('Input (x)')
plt.ylabel('Output (GELU(x))')
plt.axhline(y=0, color='black', linewidth=0.5)
plt.axvline(x=0, color='black', linewidth=0.5)
plt.grid(True)
plt.legend()
plt.show()

二、Softmax函数

  1. 定义与数学表达式

    Softmax函数通常用于将原始分数转换为概率分布。对于一个给定的实数向量,Softmax函数首先计算每一个元素的指数(e的幂),然后每个元素的指数与所有元素指数总和的比值,就形成了softmax函数的输出。

  2. 特点

    • 归一化:Softmax函数将原始分数转换为概率分布,确保所有概率之和为1,使得输出结果可以解释为概率。
    • 平滑化:通过指数函数,Softmax能够将大的分数差距转换为相对平滑的概率分布,从而避免了"赢家通吃"的情况。
    • 可解释性:输出的概率分布使得模型预测结果更加直观和可解释。
  3. 在Transformer中的应用

    Softmax函数在Transformer模型中有两个关键位置被使用:

    • 自注意力机制:在自注意力机制中,Softmax函数用于对相似度分数进行归一化,生成一个权重分布,该分布表示了在计算当前位置的表示时,应赋予其他位置多大的关注程度。
    • 输出层:在Transformer的解码器部分,输出层负责根据解码器的状态生成目标序列。当进行词汇预测或生成任务时,解码器的最后一层通常会产生一个未经归一化的分数向量(logits),Softmax函数被应用于这个分数向量,将其转换为概率分布,其中每个元素表示生成对应词汇的概率。
相关推荐
点云SLAM13 分钟前
CVPR 2024 人脸方向总汇(人脸识别、头像重建、人脸合成和3D头像等)
深度学习·计算机视觉·人脸识别·3d人脸·头像重建
涛涛讲AI24 分钟前
扣子平台音频功能:让声音也能“智能”起来
人工智能·音视频·工作流·智能体·ai智能体·ai应用
霍格沃兹测试开发学社测试人社区26 分钟前
人工智能在音频、视觉、多模态领域的应用
软件测试·人工智能·测试开发·自动化·音视频
herosunly1 小时前
2024:人工智能大模型的璀璨年代
人工智能·大模型·年度总结·博客之星
PaLu-LI1 小时前
ORB-SLAM2源码学习:Initializer.cc(13): Initializer::ReconstructF用F矩阵恢复R,t及三维点
c++·人工智能·学习·线性代数·ubuntu·计算机视觉·矩阵
呆呆珝1 小时前
RKNN_C++版本-YOLOV5
c++·人工智能·嵌入式硬件·yolo
笔触狂放1 小时前
第一章 语音识别概述
人工智能·python·机器学习·语音识别
ZzYH221 小时前
文献阅读 250125-Accurate predictions on small data with a tabular foundation model
人工智能·笔记·深度学习·机器学习
格林威1 小时前
BroadCom-RDMA博通网卡如何进行驱动安装和设置使得对应网口具有RDMA功能以适配RDMA相机
人工智能·数码相机·opencv·计算机视觉·c#
FL16238631291 小时前
汽车表面划痕刮伤检测数据集VOC+YOLO格式1221张1类别
深度学习·yolo·汽车