不只是调包：Transformer编码器的原理与实现（一）

作为一个AI应用开发者，我开始只想做个"调包侠"。直到有一天，模型出现幻觉，我不知道从何下手；面对长文本内存爆炸，我不知道为什么。于是我决定：钻进这个黑盒子里看看。这是我对Transformer编码器的学习笔记，希望能帮到同样困惑的你。

Transformer是什么

Transformer是一种革命性的AI模型架构，核心思想是"注意力机制"。

想象你在读一句话："那只猫在垫子上睡觉，它很可爱。" 要理解"它"指的是谁，你需要回头看"猫"。Transformer的厉害之处在于：它让每个词都能同时看到所有其他词，一次性理解整个句子的关系，而不是像以前的模型那样一个词一个词地读。

在Transformer出现之前，业界主要采用RNN（循环神经网络）来处理序列数据。RNN采用的是串行循环处理机制：读一句话"猫吃鱼"，必须一个字一个字地输入------"猫"处理完才能处理"吃"，"吃"处理完才能处理"鱼"。

这种模式的弊端很明显：

效率低：只能串行，无法并行计算
记忆衰减：信息通过隐藏状态逐级传递，"猫"的语义传到"鱼"时已经严重受损。句子越长，开头的内容丢失越严重------就像LLM读着后面的，忘了前面的。

正是这两个痛点，让RNN无法支撑起今天的LLM。

Transformer的出现彻底改变了这一局面。它的核心是两大机制：多头自注意力机制 和前馈神经网络机制。本章我们先聚焦自注意力机制------看看它如何用一个精妙的设计，让模型能"一眼看全句"，同时解决效率问题和记忆衰减问题，让LLM真正走进现实。

多头自注意力机制

想象你在一个嘈杂的派对上，朋友喊你："那个穿红衣服的人，就是昨天帮我修电脑的！"

要理解这句话，你需要：找到"穿红衣服的人"（视觉注意力），回忆"昨天修电脑"的事（记忆注意力），把这两者关联起来（关系建模）

自注意力做的就是类似的事 ：让句子里的每个词，都去"看"其他所有词，判断谁和自己相关，然后把相关信息吸收进来。

"那只猫在垫子上睡觉，它很可爱。"

"它"指的是谁？

人类一看就知道："它"指"猫"

自注意力怎么做的？"它"这个字，会并行计算自己和所有词的相关性

"猫"的相关性得分最高 → 把"猫"的信息吸收进来
最终"它"的向量里，包含了"猫"的语义

计算步骤

输入：["猫", "吃", "鱼"]（每个词已经转成了向量）

第1步：生成Q、K、V

每个词都生成自己的Query、Key、Value

Q、K、V是同一个词从三个不同角度"看自己"和"被看"的方式：

Query（查询） ：这个词想从别人那得到什么（主动询问）

Key（键） ：这个词能告诉别人自己是什么（被动标签）

Value（值） ：这个词真正要传递的内容（实际信息）

第2步：计算相似度（Q×K）

"猫"的Query 去点乘所有词的Key
得到分数：猫-猫（0.9）、猫-吃（0.3）、猫-鱼（0.1）
这个分数表示："猫"和每个词的相关程度

第3步：归一化（Softmax）

把分数转成概率：猫-猫（0.8）、猫-吃（0.15）、猫-鱼（0.05）
让所有相关性加起来等于1

第4步：加权求和

用这些概率去乘每个词的Value，然后相加
最终"猫"的新向量 = 0.8×猫的内容 + 0.15×吃的内容 + 0.05×鱼的内容
"猫"现在知道了自己和"吃"有点关系，和"鱼"关系不大

关键洞察 ：经过自注意力，每个词都"看"了一遍全句，吸收了对自己的信息，变成了上下文相关的词。

如何解决了痛点

串行处理 → 并行计算

RNN：必须等"猫"算完才能算"吃"
Transformer ：所有词的Q、K、V可以同时计算，因为词与词之间没有等待关系
就像全班同学同时写检索词，然后交换查看，不需要等别人写完

RNN: 猫 → 吃 → 鱼（串行，耗时3步）
Transformer: 猫吃鱼（并行，耗时1步）
↓ ↓ ↓
同时计算

梯度衰减 → 直接连接

RNN：信息通过隐藏状态"接力传递"，越传越弱
Transformer ：任意两个词都可以直接交互，没有中间传递损耗
"鱼"可以直接看"猫"，不需要通过"吃"传话

RNN的信息传递像"传话游戏"，越传越失真；Transformer像"全员开会"，谁都可以直接对话。

多头注意力

这个多头则是表示从不同的角度去解析这句话，因为语意是多维复杂的而不是单一的

想象你同时用多种方式理解一句话：

头1：关注语法关系（主谓宾）
头2：关注语义关系（谁对谁做了什么）
头3：关注指代关系（"它"指谁）

就像你请多个专家同时分析同一句话，每个人从不同角度给出见解，最后综合起来。

计算示意

8个头 → 每个头独立做一遍上面的四步计算
每个头得到不同的"关系理解"
最后把所有头的结果拼起来，再压缩回原来的维度

核心价值：多头让模型能从多个维度理解关系，表达能力大大增强。

位置编码

Transformer是并行计算，不像RNN天然有顺序感。如果不加位置信息，模型会认为"猫吃鱼"和"鱼吃猫"是一样的。

怎么做的？

给每个词加一个"位置向量"，就像给每个座位贴座位号。

偶数位置用sin函数
奇数位置用cos函数

为什么用sin/cos？ 这样模型可以学会"相对位置"------比如"猫"在"吃"前面2个位置，这个距离信息可以被捕捉到。

在进行多头注意力计算的之前先生成每个词的位置编码，然后将这个位置编码的向量与词embedding后的向量相加后丢给多头注意力进行处理。

回顾一下，自注意力机制通过Q、K、V的计算，让每个词都能看到全局、吸收相关信息，彻底打破了RNN的串行魔咒。再加上多头机制从多个角度理解关系，位置编码保留顺序信息------这些设计共同构成了Transformer的"理解引擎"。