Transformer解读 - 技术栈

**前馈神经网络主要是增强模型的非线性表达性

2.激活函数

先看：没有激活函数会怎样？

你之前学的：输入 × 权重 + 偏置全是 线性计算（就是加减乘）。

哪怕你叠 100 层神经网络：

线性 + 线性 + 线性 ...... 最终还是线性
只能拟合直线、简单关系
根本学不会：图片分类、语音、复杂规律

没有激活函数 → 神经网络 = 高级线性回归，啥复杂任务都干不了。

激活函数干了啥？

它在每一层神经元后面，做一件事：把线性的结果 "掰弯"，变成非线性。

就像给神经元加一个开关 / 过滤器：

有的信号太弱，直接过滤掉
有的信号够强，正常输出
把直线变成曲线

这样神经网络才能：

学曲线
学边缘、纹理、形状
学复杂逻辑、分类、识别

3.RNN

若输入输出不等长，那么rnn就不太能处理

因此就有了编码器-解码器结构

c携带上下文信息，之后就是输入到decoder之中，然后进行进一步的解码

4.注意力机制

给每个词加上权重

5. Add & Norm

Add & Norm 是深度学习中特别是Transformer 架构 里的核心组件，由 Add（残差连接 / Residual Connection） 和 Norm（层归一化 / Layer Normalization） 两部分组成，通常按 "残差连接→层归一化" 的顺序执行，用于解决深层网络训练中的梯度消失 / 爆炸问题和内部协变量偏移问题，提高训练稳定性和效率。

Add（残差连接）：将子层（如自注意力层、前馈网络层）的输入 x 与其输出 SubLayer (x) 直接相加，形成残差路径
Norm（层归一化）：对相加结果进行层归一化处理

697

Transformer中的Add & Norm

在 Transformer 的 Encoder 和 Decoder 的每一层中，每个子层（自注意力层、前馈网络层）后都紧跟一个 Add & Norm 单元
Encoder 块结构：Multi-Head Attention → Add & Norm → Feed Forward → Add & Norm
Decoder 块结构：Masked Multi-Head Attention → Add & Norm → Encoder-Decoder Attention → Add & Norm → Feed Forward → Add & Norm

6.BLEU SCORE

BLEU = Bilingual Evaluation Understudy

用来自动评估 ：机器翻译 / 文本生成 好不好
核心思想：生成的句子越像人类参考句子，分数越高

常见 n-gram:

BLEU-1 ：看单词是否对得上（精准）
BLEU-2 ：看两个词一组（流畅度）
BLEU-3 / BLEU-4：更长片段，更接近人类表达

平时论文里最常用：👉 BLEU-4

7.超参数

超参数 = 训练开始前，人手动设置的参数

深度学习里最常见的超参数

学习率（learning rate）
控制每一步更新多大，最重要。
Batch size
一次喂给模型多少样本。
Epoch
把整个数据集训练几遍。
隐藏层大小 / 层数
如 Transformer 的 d_model、层数、头数。
Dropout rate
防止过拟合的概率。
优化器种类
SGD、Adam、AdamW