Transformer Decoder 中序列掩码（Sequence Mask / Look-ahead Mask）

✅ 问题：

"Transformer 的 Decoder 中，多头注意力得到注意力分数后，为什么需要序列掩码？为什么是上三角矩阵？序列是自己排序了吗？"

🎯 核心答案总结

1. 为什么要用序列掩码？

目的：防止模型在生成当前词时"偷看"未来的词，保证自回归生成的因果性（causality）。
场景：Decoder 在训练时为了并行化，会一次性输入整个目标序列（如 <sos> The cat sat），但生成时必须从左到右一个词一个词地生成。
作用：通过掩码强制模型在预测第 i 个词时，只能依赖第 1 到第 i 个词的信息，不能访问第 i+1 及之后的词。

🔍 类比：就像考试时，你只能根据已经写下的内容来写下一个词，不能提前看到整篇作文的答案。

2. 为什么掩码是"上三角矩阵"？

关键误解澄清 ：这里的"上三角"不是指词向量的维度方向 ，而是指 n×n 的注意力分数矩阵 中，位置与位置之间的关系。
矩阵结构 ：
- 行 i：表示"当前正在生成的第 i 个词"（Query）
- 列 j：表示"可以被关注的第 j 个词"（Key）
- 元素 S[i,j]：表示词 i 对词 j 的关注程度
掩码规则 ：
- 如果 j > i（即 j 在 i 的未来），则 S[i,j] 被设为 -∞
- 这些被屏蔽的位置正好位于主对角线以上 ，形成一个上三角为 -∞，下三角及对角线为 0 的矩阵

复制代码

Python

编辑

复制代码

# 4x4 序列掩码示例（-inf 表示屏蔽）
[[  0, -inf, -inf, -inf],   # 位置1只能看位置1
 [  0,   0, -inf, -inf],   # 位置2可看1,2
 [  0,   0,   0, -inf],   # 位置3可看1,2,3
 [  0,   0,   0,   0]]    # 位置4可看全部

✅ 所以，"上三角"是位置索引 i < j 的数学体现，而不是数据本身的排序或维度操作。

3. 序列是"自己排序"了吗？

不是。序列的顺序是预设的、固定的时序顺序 ，由以下机制保证：
1. 输入顺序 ：序列按时间步 [x₁, x₂, ..., xₙ] 输入。
2. 位置编码（Positional Encoding）：每个词都加上了表示其位置的向量，告诉模型"谁在前，谁在后"。
掩码正是基于这个已知的、固定的位置顺序来构建的，而不是模型动态"排序"了序列。

💡 换句话说：顺序是人为给定的，掩码是基于这个顺序设计的规则。

⚠️ 最容易混淆的几个地方（重点！）

混淆点	正确认识
❌ "列代表词向量的维度"	✅ 错！在注意力分数矩阵中，行列都代表序列中的位置，不是维度。维度 `d_model` 出现在 `Q, K, V` 矩阵中，但不在 `S[i,j]` 的行列定义里。
❌ "上三角是某种排序结果"	✅ 错！ "上三角"是位置索引关系 `i < j` 的几何表现，不是对内容排序。它是一个预设的因果结构。
❌ "掩码是为了去掉无意义的词"	✅ 不准确！那是 Padding Mask 的作用。序列掩码是防止"看未来"，两者常一起使用但目的不同。
❌ "Encoder 也需要序列掩码"	✅ 错！ Encoder 处理的是完整输入，可以双向关注，不需要序列掩码。只有 Decoder 的自注意力需要。
❌ "掩码改变了词的顺序"	✅ 错！掩码只是屏蔽某些位置间的注意力，不改变输入顺序或词的位置。

🧠 记忆口诀

"行是现在，列是过去；未来不准看，上三角封住。"

行：当前正在生成的词（现在）
列：可以被关注的词（必须是过去或现在）
上三角 ：i < j 的未来位置，全部屏蔽（-∞）
Softmax 后：被屏蔽位置的注意力权重变为 0

✅ 总结一句话

序列掩码是一个基于预设位置顺序的 n×n 上三角矩阵，用于在 Decoder 自注意力中屏蔽未来信息，确保生成过程符合从左到右的因果逻辑，而"上三角"是"不能看未来"这一规则在矩阵形式下的自然体现。

理解这一点，你就掌握了 Transformer 解码机制的核心设计思想之一！