深度学习模型Transformer核心组件—前馈网络FFN

第一章:人工智能之不同数据类型及其特点梳理
第二章:自然语言处理(NLP):文本向量化从文字到数字的原理
第三章:循环神经网络RNN:理解 RNN的工作机制与应用场景(附代码)
第四章:循环神经网络RNN、LSTM以及GRU 对比(附代码)
第五章:理解Seq2Seq的工作机制与应用场景中英互译(附代码)
第六章:深度学习架构Seq2Seq-添加并理解注意力机制(一)
第七章:深度学习架构Seq2Seq-添加并理解注意力机制(二)
第八章:深度学习模型Transformer初步认识整体架构
第九章:深度学习模型Transformer核心组件---自注意力机制
第十章:理解梯度下降、链式法则、梯度消失/爆炸
第十一章:Transformer核心组件---残差连接与层归一化
第十二章:Transformer核心组件---位置编码
第十三章:Transformer核心组件---前馈网络FFN

在Transformer模型中,前馈网络(Feed-Forward Network,FFN)是一个关键组件,其作用是对每个位置的表示进行非线性变换,增强模型的表达能力。

下面是Transformer 的架构图,可以看到前馈网络Feed-Forward,在编码器和解码器都存在。

一、前馈网络的结构

上图是一个 3 层线性层的例子,前馈网络由两个线性变换层和一个激活函数组成,公式表示为:
FFN ( x ) = ReLU ( x W 1 + b 1 ) W 2 + b 2 \text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2 FFN(x)=ReLU(xW1+b1)W2+b2

  • 输入:每个位置的独立表示(如自注意力层的输出)。
  • 参数
    • W 1 ∈ R d model × d ff W_1 \in \mathbb{R}^{d_{\text{model}}} \times d_{\text{ff}} W1∈Rdmodel×dff:第一个线性层的权重矩阵, d model d_{\text{model}} dmodel是词向量的维度, d ff d_{\text{ff}} dff是第二个线性层的维度(通常 d ff = 2048 d_{\text{ff}} = 2048 dff=2048)。
    • b 1 b_1 b1:第一个线性层的偏置。
    • W 2 ∈ R d ff × d model W_2 \in \mathbb{R}^{d_{\text{ff}}} \times d_{\text{model}} W2∈Rdff×dmodel:第二个线性层的权重矩阵。
    • b 2 b_2 b2:第二个线性层的偏置。
  • 激活函数:ReLU(或其他如GELU)引入非线性。
示例 (假设 d model = 512 d_{\text{model}} = 512 dmodel=512):
  1. 输入向量 x ∈ R 512 x \in \mathbb{R}^{512} x∈R512。
  2. 通过 W 1 W_1 W1 映射到 R 2048 \mathbb{R}^{2048} R2048。
  3. 应用ReLU激活。
  4. 通过 W 2 W_2 W2 映射回 R 512 \mathbb{R}^{512} R512。

二、前馈网络的作用

(1) 引入非线性
  • 自注意力的局限性:自注意力层本质是线性变换的加权和(点积运算),缺乏非线性。
  • FFN的补充:通过ReLU激活函数,FFN为模型添加非线性,使其能拟合更复杂的函数。
(2) 独立的位置特征处理
  • 逐位置操作:FFN独立处理每个位置的表示,不涉及序列中其他位置的交互。
  • 局部特征增强:对每个位置的语义信息进行深度加工,例如提取词性、语义角色等局部特征。
(3) 升维与降维
  • 升维:通过中间层(如2048维)扩展表示空间,捕捉更细粒度的特征。
  • 降维:将高维特征压缩回原始维度,保持模型结构的一致性。
(4) 跨层特征融合
  • 分层抽象:不同层的FFN学习不同层次的特征,底层可能捕捉语法,高层可能捕捉语义。

三、前馈网络的设计意义

(1) 与自注意力机制互补
组件 核心功能 交互范围
自注意力机制 捕捉序列内长程依赖和全局关系 全局(所有位置)
前馈网络 增强单个位置的非线性表示能力 局部(单个位置)
(2) 参数规模与模型容量
  • 参数量占比 :在Transformer中,FFN的参数通常占全模型的60%以上(如 d model = 512 d_{\text{model}} = 512 dmodel=512 时,单层FFN参数量为 512 × 2048 + 2048 × 512 ≈ 2.1 M 512{\times}2048 + 2048{\times}512 \approx 2.1M 512×2048+2048×512≈2.1M)。
  • 模型深度:FFN的深度(两层线性变换)增强了单层的表达能力,减少所需的总层数。

四、示例说明

假设输入序列为"猫 吃 鱼",经过自注意力层后,每个位置的表示已包含上下文信息:

  • "猫"的表示:包含"吃"和"鱼"的上下文。
  • FFN处理
    1. 将"猫"的向量从512维映射到2048维,捕捉更细粒度特征(如"主语""动物")。
    2. 通过ReLU过滤非重要特征。
    3. 映射回512维,保留关键信息供下一层使用。

五、总结

若没有前馈网络

  • 模型退化:仅靠自注意力机制,模型退化为线性堆叠,无法拟合复杂模式。
  • 实验验证:移除FFN的Transformer在文本生成、翻译等任务上性能显著下降。
核心点 说明
结构 两层线性变换 + 激活函数,独立处理每个位置
作用 引入非线性、增强局部特征、升维/降维
与自注意力关系 全局交互(自注意力) + 局部深化(FFN) = 完整特征学习
必要性 避免模型表达能力受限,提升对复杂模式的拟合能力
相关推荐
TSINGSEE2 分钟前
跨平台嵌入式音视频开发指南:EasyRTC音视频通话的多场景适配与AI扩展能力
人工智能·音视频·webrtc·智能家居
白-胖-子17 分钟前
从万维网到人工智能基石:大数据技术三十年演进史(1991-2025)
大数据·人工智能
学步_技术1 小时前
自动驾驶系列—GLane3D: Detecting Lanes with Graph of 3D Keypoints
人工智能·机器学习·计算机视觉·3d·自动驾驶
wufeil1 小时前
基于电子等排体的3D分子生成模型 ShEPhERD - 评测
深度学习·扩散模型·分子生成·药物设计·aidd·药效团·静电势
Dream25122 小时前
【模型常见评价指标(分类)】
人工智能
中意灬6 小时前
基于CNN+ViT的蔬果图像分类实验
人工智能·分类·cnn
唐天下文化8 小时前
甜心速达智慧潮流精选超市、即时零售新业态,打造可持续发展商业模式
大数据·人工智能·零售
有杨既安然8 小时前
Python自动化办公
开发语言·人工智能·深度学习·机器学习
何似在人间5758 小时前
SpringAI+DeepSeek大模型应用开发——1 AI概述
java·人工智能·spring·springai