说说transformer 中的掩码矩阵以及为什么能掩盖住词语

好的,我们从 Transformer 中掩码矩阵(mask matrix) 的定义和作用一步步解释:


1. 为什么要有掩码(mask)

在 Transformer 的 注意力机制 (Attention) 中,每个词会和序列里所有其他词计算相似度(相关性),得到一个加权和作为新的表示。

但是有两个场景需要"掩盖"一些位置的词:

  • Padding Mask(填充掩码)

    输入序列往往被 padding 到相同长度(比如 [the, cat, <PAD>, <PAD>])。
    <PAD> 不是实际的词,不应该参与注意力计算,否则会影响结果。

  • Causal Mask(因果掩码 / Look-ahead Mask)

    自回归(自左到右生成) 的任务里(比如 GPT 语言模型),在预测第 t 个词时,不应该看到未来的词(t+1, t+2, ...)。

    所以需要掩盖"未来"的部分,保证模型不能"作弊"。


2. 掩码矩阵的形式

在注意力计算中有个公式(简化版):

Attention(Q,K,V)=softmax(QKTdk+M)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right)V Attention(Q,K,V)=softmax(dk QKT+M)V

其中:

  • QKTQK^TQKT 是 query 和 key 的打分矩阵,形状为 [seq_len, seq_len]

  • MMM 是 掩码矩阵,和打分矩阵同维度。

  • 掩码的规则:

    • 需要保留的地方 → M=0M=0M=0
    • 需要屏蔽的地方 → M=−∞M=-\inftyM=−∞(或者一个非常大的负数)

3. 为什么能"掩盖住词语"

核心原因在于 softmax 的性质

softmax(zi)=ezi∑jezj \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}} softmax(zi)=∑jezjezi

  • 如果 zi=−∞z_i = -\inftyzi=−∞,则 ezi=0e^{z_i} = 0ezi=0。
  • 所以被掩盖的位置在 softmax 后得到的注意力权重就是 0,完全不会参与后续加权求和。

也就是说,掩码不是"删除词语",而是把它们在注意力中的权重强行压成 0,模型就等于"看不见"这些词。


4. 两种典型掩码矩阵

  1. Padding Mask(屏蔽填充)

    复制代码
    输入: [The, cat, <PAD>, <PAD>]
    掩码矩阵 (对 <PAD> 位置全 -∞):
    [[0, 0, -∞, -∞],
     [0, 0, -∞, -∞],
     [0, 0, -∞, -∞],
     [0, 0, -∞, -∞]]
  2. Causal Mask(防止看未来)

    复制代码
    输入: [I, like, cats]
    掩码矩阵 (下三角保留,上三角掩盖):
    [[ 0, -∞, -∞],
     [ 0,   0, -∞],
     [ 0,   0,   0]]

这样,第 1 个词只能看自己,第 2 个词只能看前 2 个,第 3 个词能看所有过去词,符合自回归生成的逻辑。


✅ 总结一句:
掩码矩阵通过在注意力打分上加上 -∞,使得 softmax 权重为 0,从而屏蔽掉无效或未来的词,让模型只能利用合法的信息。


要不要我帮你画一个 图示,把注意力权重和掩码结合起来直观展示?

相关推荐
金融小师妹4 分钟前
AI多模态宏观建模视角:超级央行周触发“政策—数据—预期”耦合重估框架
大数据·人工智能·逻辑回归·能源
FIN66687 分钟前
底部蓄力,静待花开——清越科技的韧性与曙光
大数据·人工智能·物联网
小超同学你好7 分钟前
Transformer 31. ALBEF:Align before Fuse,用「先对齐、再融合」解决图文交互难学的问题
深度学习·transformer·交互
Gofarlic_OMS12 分钟前
UG/NX许可证管理高频技术问题解答汇编
java·大数据·运维·服务器·汇编·人工智能
一念杂记12 分钟前
SKILL到底应该怎么写?10 分钟快速掌握 AI 智能体技能开发核心技巧
人工智能·openai·ai编程
AI刀刀13 分钟前
手机AI怎么导出pdf
人工智能·ai·智能手机·pdf·deepseek·ds随心转
财迅通Ai14 分钟前
天音控股披露最新财报:拥抱AI融合趋势 数智化转型赋能新零售
人工智能·零售·天音控股
tangweiguo0305198717 分钟前
AI文生图完整实战:基于阿里云百炼通义万相
人工智能·langchain
汽车仪器仪表相关领域17 分钟前
Kvaser Memorator Professional HS/LS:高速 + 低速双通道 CAN 总线记录仪,跨系统诊断的专业级解决方案
网络·人工智能·功能测试·测试工具·安全·压力测试
开心的AI频道18 分钟前
如何看待 OpenAI 近期小范围内测的 GPT-image-2 生图模型?
人工智能·gpt