Transformer解读

**前馈神经网络主要是增强模型的非线性表达性

2.激活函数

先看:没有激活函数会怎样?

你之前学的:输入 × 权重 + 偏置全是 线性计算(就是加减乘)。

哪怕你叠 100 层神经网络:

  • 线性 + 线性 + 线性 ...... 最终还是 线性
  • 只能拟合直线、简单关系
  • 根本学不会:图片分类、语音、复杂规律

没有激活函数 → 神经网络 = 高级线性回归,啥复杂任务都干不了。


激活函数干了啥?

它在每一层神经元后面,做一件事:把线性的结果 "掰弯",变成非线性。

就像给神经元加一个开关 / 过滤器

  • 有的信号太弱,直接过滤掉
  • 有的信号够强,正常输出
  • 把直线变成曲线

这样神经网络才能:

  • 学曲线
  • 学边缘、纹理、形状
  • 学复杂逻辑、分类、识别

3.RNN

若输入输出不等长,那么rnn就不太能处理

因此就有了编码器-解码器结构

c携带上下文信息,之后就是输入到decoder之中,然后进行进一步的解码

4.注意力机制

给每个词加上权重

5. Add & Norm

Add & Norm 是深度学习中特别是Transformer 架构 里的核心组件,由 Add(残差连接 / Residual Connection)Norm(层归一化 / Layer Normalization) 两部分组成,通常按 "残差连接→层归一化" 的顺序执行,用于解决深层网络训练中的梯度消失 / 爆炸问题和内部协变量偏移问题,提高训练稳定性和效率。

  • Add(残差连接):将子层(如自注意力层、前馈网络层)的输入 x 与其输出 SubLayer (x) 直接相加,形成残差路径
  • Norm(层归一化):对相加结果进行层归一化处理

697

Transformer中的Add & Norm

  • 在 Transformer 的 Encoder 和 Decoder 的每一层中,每个子层(自注意力层、前馈网络层)后都紧跟一个 Add & Norm 单元
  • Encoder 块结构:Multi-Head Attention → Add & Norm → Feed Forward → Add & Norm
  • Decoder 块结构:Masked Multi-Head Attention → Add & Norm → Encoder-Decoder Attention → Add & Norm → Feed Forward → Add & Norm

6.BLEU SCORE

BLEU = Bilingual Evaluation Understudy

  • 用来自动评估机器翻译 / 文本生成 好不好
  • 核心思想:生成的句子越像人类参考句子,分数越高

常见 n-gram:

  • BLEU-1 :看单词是否对得上(精准)
  • BLEU-2 :看两个词一组(流畅度)
  • BLEU-3 / BLEU-4:更长片段,更接近人类表达

平时论文里最常用:👉 BLEU-4

7.超参数

超参数 = 训练开始前,人手动设置的参数

深度学习里最常见的超参数

  1. 学习率(learning rate)
    控制每一步更新多大,最重要。

  2. Batch size
    一次喂给模型多少样本。

  3. Epoch
    把整个数据集训练几遍。

  4. 隐藏层大小 / 层数
    如 Transformer 的 d_model、层数、头数。

  5. Dropout rate
    防止过拟合的概率。

  6. 优化器种类
    SGD、Adam、AdamW


相关推荐
机器之心1 小时前
Sand.ai开源发布MagiCompiler:突破局部编译界限,定义训推性能上限
人工智能·openai
KieranYin2 小时前
AI编程 | 概念
人工智能
飞Link2 小时前
LangChain Core 架构深度剖析与 LCEL 高阶实战
人工智能·架构·langchain
liangdabiao2 小时前
Seedance 2.0 Skill 一键写好剧本上线了coze的技能商店了,免费
人工智能
漫天黄叶远飞2 小时前
从 Function Calling 到 RAG:AI 应用开发的三把钥匙
llm·aigc
安思派Anspire2 小时前
安思派发布「OpenClaw实时联网搜索Skill」,让龙虾“睁眼看世界”!
aigc·openai·agent
喵飞云智AI研发社2 小时前
本土AI企业发力 喵飞科技AIGC开年分享会助力天津数字化转型
人工智能·科技·aigc
于过2 小时前
AgentMiddleware is All You Need
人工智能·langchain·llm
LLM精进之路2 小时前
频域+特征融合:深度学习的黄金组合,顶会顶刊的快速通道
人工智能·计算机视觉·目标跟踪