深度学习模型Transformer核心组件—前馈网络FFN

第一章：人工智能之不同数据类型及其特点梳理
 第二章：自然语言处理(NLP)：文本向量化从文字到数字的原理
 第三章：循环神经网络RNN：理解 RNN的工作机制与应用场景(附代码)
第四章：循环神经网络RNN、LSTM以及GRU 对比(附代码)
第五章：理解Seq2Seq的工作机制与应用场景中英互译(附代码)
第六章：深度学习架构Seq2Seq-添加并理解注意力机制(一)
第七章：深度学习架构Seq2Seq-添加并理解注意力机制(二)
第八章：深度学习模型Transformer初步认识整体架构
 第九章：深度学习模型Transformer核心组件---自注意力机制
 第十章：理解梯度下降、链式法则、梯度消失/爆炸
 第十一章：Transformer核心组件---残差连接与层归一化
 第十二章：Transformer核心组件---位置编码
 第十三章：Transformer核心组件---前馈网络FFN

在Transformer模型中，前馈网络（Feed-Forward Network，FFN）是一个关键组件，其作用是对每个位置的表示进行非线性变换，增强模型的表达能力。

下面是Transformer 的架构图，可以看到前馈网络Feed-Forward，在编码器和解码器都存在。

一、前馈网络的结构

上图是一个 3 层线性层的例子，前馈网络由两个线性变换层和一个激活函数组成，公式表示为：
FFN ( x ) = ReLU ( x W 1 + b 1 ) W 2 + b 2 \text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2 FFN(x)=ReLU(xW1+b1)W2+b2

输入：每个位置的独立表示（如自注意力层的输出）。
参数：
- W 1 ∈ R d model × d ff W_1 \in \mathbb{R}^{d_{\text{model}}} \times d_{\text{ff}} W1∈Rdmodel×dff：第一个线性层的权重矩阵， d model d_{\text{model}} dmodel是词向量的维度， d ff d_{\text{ff}} dff是第二个线性层的维度（通常 d ff = 2048 d_{\text{ff}} = 2048 dff=2048）。
- b 1 b_1 b1：第一个线性层的偏置。
- W 2 ∈ R d ff × d model W_2 \in \mathbb{R}^{d_{\text{ff}}} \times d_{\text{model}} W2∈Rdff×dmodel：第二个线性层的权重矩阵。
- b 2 b_2 b2：第二个线性层的偏置。
激活函数：ReLU（或其他如GELU）引入非线性。

示例（假设 d model = 512 d_{\text{model}} = 512 dmodel=512）：

输入向量 x ∈ R 512 x \in \mathbb{R}^{512} x∈R512。
通过 W 1 W_1 W1 映射到 R 2048 \mathbb{R}^{2048} R2048。
应用ReLU激活。
通过 W 2 W_2 W2 映射回 R 512 \mathbb{R}^{512} R512。

二、前馈网络的作用

(1) 引入非线性

自注意力的局限性：自注意力层本质是线性变换的加权和（点积运算），缺乏非线性。
FFN的补充：通过ReLU激活函数，FFN为模型添加非线性，使其能拟合更复杂的函数。

(2) 独立的位置特征处理

逐位置操作：FFN独立处理每个位置的表示，不涉及序列中其他位置的交互。
局部特征增强：对每个位置的语义信息进行深度加工，例如提取词性、语义角色等局部特征。

(3) 升维与降维

升维：通过中间层（如2048维）扩展表示空间，捕捉更细粒度的特征。
降维：将高维特征压缩回原始维度，保持模型结构的一致性。

(4) 跨层特征融合

分层抽象：不同层的FFN学习不同层次的特征，底层可能捕捉语法，高层可能捕捉语义。

三、前馈网络的设计意义

(1) 与自注意力机制互补

组件	核心功能	交互范围
自注意力机制	捕捉序列内长程依赖和全局关系	全局（所有位置）
前馈网络	增强单个位置的非线性表示能力	局部（单个位置）

(2) 参数规模与模型容量

参数量占比 ：在Transformer中，FFN的参数通常占全模型的60%以上（如 d model = 512 d_{\text{model}} = 512 dmodel=512 时，单层FFN参数量为 512 × 2048 + 2048 × 512 ≈ 2.1 M 512{\times}2048 + 2048{\times}512 \approx 2.1M 512×2048+2048×512≈2.1M）。
模型深度：FFN的深度（两层线性变换）增强了单层的表达能力，减少所需的总层数。

四、示例说明

假设输入序列为"猫吃鱼"，经过自注意力层后，每个位置的表示已包含上下文信息：

"猫"的表示：包含"吃"和"鱼"的上下文。
FFN处理 ：
1. 将"猫"的向量从512维映射到2048维，捕捉更细粒度特征（如"主语""动物"）。
2. 通过ReLU过滤非重要特征。
3. 映射回512维，保留关键信息供下一层使用。

五、总结

若没有前馈网络

模型退化：仅靠自注意力机制，模型退化为线性堆叠，无法拟合复杂模式。
实验验证：移除FFN的Transformer在文本生成、翻译等任务上性能显著下降。

核心点	说明
结构	两层线性变换 + 激活函数，独立处理每个位置
作用	引入非线性、增强局部特征、升维/降维
与自注意力关系	全局交互（自注意力） + 局部深化（FFN） = 完整特征学习
必要性	避免模型表达能力受限，提升对复杂模式的拟合能力