Transformer 的技术层面

我们已经知道,在大模型推理与训练过程中,所有数据的处理都以**向量(Vector)**形式进行。从整体来看,Transformer 会将整个上下文的信息不断融合进每一个 token 的隐藏状态中,而用于预测下一个词的,是 最后一个 token 经过多层注意力与 MLP 后的隐藏向量(hidden state)

下面我们从模型的入口开始------向量的形成(Embedding),再到核心的 Attention、MLP,最后到解码器,完整理解一句话是如何被"理解"并生成下一词的。


一、编码层(Embedding + 位置编码)

当句子进入模型后,会被分割成一个一个的 token(词或子词)

这些 token 本质上是词表中的索引(例如 0~5w 的数字)。

Transformer 的"编码层"实际上不是 Encoder 模块,而是:

css 复制代码
Token Embedding  
+ Position Embedding / Encoding

例如 GPT-3 中,Embedding 会将每个 token 映射到一个 12288 维向量。同时,模型还会加入"位置编码",让模型区分句子顺序(例如知道"你吃苹果" ≠ "苹果吃你")。

此时的每个 token 只是一个独立向量,它还不知道上下文,也不知道左边是什么右边是什么。接下来就交给注意力机制。


二、注意力机制(Attention)

经过 Embedding 后,每个 token 的向量都会并行地计算三种投影:

  • Q(Query) :我在寻找什么信息?
  • K(Key) :别人如何根据我来判断是否应该关注我?
  • V(Value) :如果别人关注我,我愿意提供什么内容特征?

这三者来自三组独立的矩阵:

ini 复制代码
q = xW_Q
k = xW_K
v = xW_V

Attention 的核心是:

Q 与 K 的相似度决定"关注的权重",
V 决定"被拿走的内容"。

数学表现为:

αij=softmax(qi⋅kjdk)\alpha_{ij} = softmax\left(\frac{q_i \cdot k_j}{\sqrt{d_k}}\right)αij​=softmax(dk​​qi​⋅kj​​) outi=∑jαijvjout_i = \sum_j \alpha_{ij} v_jouti​=j∑​αij​vj​

这意味着:

  • token i 会根据 Q 与所有 token 的 K 的相似度决定"看谁多,看谁少";
  • 得到的权重再与 V 加权求和,形成每个 token 融合上下文后的语义表示。

因此,一个"苹果"会在上下文的帮助下从:

复制代码
"苹果"

变成:

复制代码
"被小朋友咬了一口的红富士苹果"

它获得了上下文赋予的语义补充。


三、多头注意力(Multi-Head Attention)

为了让模型从不同角度观察句子(如句法、语义、实体、关系等),Transformer 并不是只做一次 QKV,而是:

同一层内部使用多组(如 GPT-3 的 96 组)Q/K/V 并行计算注意力。

每一组叫做一个 head(注意力头)

流程:

bash 复制代码
输入向量 → 96 套 W_Q/W_K/W_V → 得到 96 套 q/k/v  
→ 96 次独立的 Attention  
→ concat 拼接  
→ 再线性融合回到原维度

你可以理解为:

多头注意力 = 单层内部的 96 个"不同视角"同时读懂一句话。

但这一整套操作仍然被视为 一次 Attention 层


四、MLP(前馈网络 / 多层感知机)

Attention 让 token 得到了上下文信息,但语义仍需要进一步非线性变换与特征组合------这正是 MLP 的作用。

一句话总结:

Attention 负责"信息流动与上下文理解",
MLP 负责"特征增强、非线性表达与高阶抽象"。

例如:

  • "塔" 经过 Attention 后知道上下文指的是"埃菲尔铁塔";
  • MLP 会进一步加强它的特征,如"铁做的、高、有结构特征"等。

MLP 结构通常是:

复制代码
d_model → d_ff(扩大数倍)→ d_model

通过两次线性变换 + 激活函数(如 GELU),使 token 的语义表达更丰富。


五、多层 Transformer(Layer Stack)

Transformer 的基本结构单元是 一个 block

复制代码
(1)多头注意力  
(2)残差 + LayerNorm  
(3)MLP  
(4)残差 + LayerNorm

GPT-3 175B 具有 96 层这样的 block,层层堆叠,每一层都使 token 的隐藏状态更抽象、更全局、更高阶。

因此:

多头 = 同一层内部的横向并行
多层 = 模型纵向的深度堆叠

两者不是一回事。


六、解码器(线性层 + Softmax)

Transformer 最终会使用"最后一个 token 的隐藏状态"来预测下一词。

流程:

  1. 线性层(Linear)
    将 hidden state(如 12288 维)映射到词表维度(如 50k 维),得到 logits(生猛分数)。
  2. Softmax
    把 logits 转成概率分布,表示每个词作为下一 token 的可能性。

最终:

css 复制代码
P(苹果) = 0.72  
P(香蕉) = 0.10  
P(葡萄) = 0.05  
...

之后由推理策略(greedy/top-k/top-p 等)选择下一词。


七、最终总结

Transformer 的完整流程可以总结为:

  1. 文本 → token → Embedding + 位置编码
  2. 多头注意力让每个 token 与所有其他 token 交换信息
  3. MLP 进一步抽象特征
  4. 多层 block 堆叠形成深度理解
  5. 最后一个 token 的隐藏状态经线性层 + softmax 得到下一词概率
  6. 推理策略选出下一个 token

这就是 Transformer 结构的核心逻辑。

相关推荐
科技小花23 分钟前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
zhuiyisuifeng2 小时前
2026前瞻:GPTimage2镜像官网或将颠覆视觉创作
人工智能·gpt
徐健峰2 小时前
GPT-image-2 热门玩法实战(一):AI 看手相 — 一张手掌照片生成专业手相分析图
人工智能·gpt
weixin_370976352 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
Slow菜鸟2 小时前
AI学习篇(五) | awesome-design-md 使用说明
人工智能·学习
冬奇Lab2 小时前
RAG 系列(五):Embedding 模型——语义理解的核心
人工智能·llm·aigc
深小乐2 小时前
AI 周刊【2026.04.27-05.03】:Anthropic 9000亿美元估值、英伟达死磕智能体、中央重磅定调AI
人工智能
码点滴2 小时前
什么时候用 DeepSeek V4,而不是 GPT-5/Claude/Gemini?
人工智能·gpt·架构·大模型·deepseek
狐狐生风3 小时前
LangChain 向量存储:Chroma、FAISS
人工智能·python·学习·langchain·faiss·agentai
波动几何3 小时前
CDA架构代码工坊技能cda-code-lab
人工智能