大模型面试题34：Transformer的Encoder和Decoder区别与协作

我们用 "翻译工作" 这个生活化场景，先讲明白两者的核心角色差异，再逐步拆解结构、机制和功能的不同，最后看它们如何配合完成任务。

Encoder = "理解输入的阅读器" → 负责把原始输入（比如英文句子）变成机器能看懂的 "语义精华" 。

Decoder = "生成输出的写作手" → 负责根据"语义精华"，一步步生成目标输出（比如中文句子）。

举个直观例子：把英文句子 "I love you" 翻译成中文 "我爱你"

Encoder的工作 ：读 "I love you" 这句话，搞懂每个词的意思，以及词之间的关系（I是主语，love是谓语，you是宾语），最后输出一个包含这句话全部语义的"精华向量"。
Decoder的工作 ：先看Encoder给的"精华向量"，然后一个词一个词地生成中文------先吐出"我"，再根据"我"和精华向量吐出"爱"，最后根据"我""爱"和精华向量吐出"你"。

对比维度	Encoder（阅读器）	Decoder（写作手）
核心目标	理解输入，提取上下文语义特征	生成输出，保证语法通顺+语义准确
工作方式	一次性看完全部输入（比如整句英文）	按顺序逐个生成输出词（比如先"我"，再"爱"，最后"你"）
能不能"偷看"	能看全部输入（双向）	不能看未来的输出词（比如生成"我"时，不能看还没生成的"爱""你"）
类比现实角色	翻译员读原文、理解意思的阶段	翻译员提笔写译文、逐字组织的阶段

用我们之前讲过的 Sequence Mask（未来掩码）：

Transformer的Encoder和Decoder都是堆叠多层实现的（比如BERT用12层Encoder，GPT用12层Decoder），但每层的内部组件有明显区别。

我们先明确一个前提：两者的基础组件都包含 多头注意力 + 前馈网络 + LayerNorm + 残差连接，但注意力的类型和数量不一样。

结构公式 ：多头自注意力 → LayerNorm+残差 → 前馈网络 → LayerNorm+残差

只有1种注意力 ：多头自注意力 （Multi-Head Self-Attention）
- 这里的"自注意力"是双向的 ：每个词可以关注输入序列中所有其他词（比如"I"可以关注"love"和"you"，"love"也可以关注"I"和"you"）。
- 目的：捕捉输入序列内部的所有依赖关系（主谓宾、修饰关系等）。
输入输出 ：输入是"词嵌入+位置编码"，输出是层层提炼后的上下文特征向量。

结构公式 ：掩码多头自注意力 → LayerNorm+残差 → 编码器-解码器注意力 → LayerNorm+残差 → 前馈网络 → LayerNorm+残差

有2种注意力 ：
① 掩码多头自注意力 （Masked Multi-Head Self-Attention）
- 作用：处理已经生成的输出序列（比如"我""爱"），捕捉输出词之间的依赖关系（比如"我"后面接"爱"更通顺）。
- 关键：加了Sequence Mask，只能关注前面的词，不能看后面的词 。
  ② 编码器-解码器注意力（Encoder-Decoder Attention）
- 作用：把Decoder的输出序列 和Encoder的输入特征做"对齐"------比如让译文的"爱"对应原文的"love"，译文的"你"对应原文的"you"。
- 通俗说：这一步是"翻译的核心对齐"，确保生成的词和原文的语义对应。
输入输出：输入是"目标词嵌入+位置编码" + "Encoder的上下文特征"，输出是下一个词的概率分布。

Encoder和Decoder的结构差异，决定了它们适合不同的任务：

Encoder端 ：
- 输入英文句子 → 词嵌入+位置编码 → 多层双向自注意力提炼语义 → 输出上下文特征矩阵。
Decoder端 ：
- 第一步：输入中文的起始标记（<s>） → 掩码自注意力处理（只能看自己）；
- 第二步：用编码器-解码器注意力，把起始标记和Encoder的特征矩阵做对齐；
- 第三步：前馈网络输出第一个中文词"我"的概率；
- 第四步：把"我"加入输入，重复上述步骤，生成"爱"→"你"→结束标记（</s>）；
- 最终输出完整中文句子。