NLP高频面试题(七)——GPT和Bert的mask有什么区别?

GPT 和 BERT 的 Mask 机制对比:核心区别与优化策略

在NLP领域,GPT 和 BERT 是最具代表性的预训练语言模型之一。它们都在训练过程中使用了 Mask 机制来引导模型学习语言表示,但具体实现方式和目标却有所不同。本文将深入探讨 GPT 和 BERT 的 Mask 方法的核心区别,并分析其优化策略。

1. BERT 的 Mask 机制:基于 MLM(Masked Language Model)

BERT(Bidirectional Encoder Representations from Transformers)采用 (Masked Language Model) 进行训练,即在输入文本中随机 Mask 掉部分 token,让模型在上下文中预测这些被 Mask 掉的 token。

BERT 的 Mask 方式具有以下特点:

  • Token 级别的 Mask :BERT 会随机选择一定比例的 token 并用 [MASK] 进行替换,例如:

    "I love MASK dogs."

    这里的 my 可能会被 Mask 掉,模型需要结合上下文来预测原始词。

  • 基于子词(Subword)级别的 Mask :BERT 采用 BPE(Byte-Pair Encoding) 或 WordPiece 进行分词,一个单词可能被拆分成多个子词(subword)。

    例如:

    "running" → "run", "##ning"

    如果只 Mask 掉 "##ning",模型很容易猜测出原单词是 "running"。

  • Mask 预测的优化

    • Span Mask(片段 Mask) :后续研究发现,单独 Mask 子词会让任务变得过于简单,因此提出了 Span Mask,即将整个单词或一段短语整体 Mask 掉,从而增加任务的难度。
    • 命名实体 Mask (适用于中文):中文的分词方式不同于英文,百度等团队在优化 BERT 训练时提出 Named Entity Masking(命名实体 Mask),专门对人名、地名等实体进行 Mask,使模型更好地学习实体识别能力。

2. GPT 的 Mask 机制:基于 CLM(Causal Language Model)

与 BERT 不同,GPT(Generative Pre-trained Transformer)采用的是 自回归语言模型(Causal Language Model, CLM) ,其训练目标是通过前面的词预测下一个词,而不是填补 Mask 掉的部分。因此,GPT 并不使用 [MASK],而是通过 自回归(Autoregressive) 方式进行训练,即:

"I love my" → 预测 "dog"

GPT 训练时,模型只能看到当前词及其之前的词,而不能看到未来的词,因此它的 Mask 机制表现为单向(从左到右)遮蔽

  • 自回归 Mask(Causal Mask) :在 Transformer 计算注意力时,GPT 采用一个 上三角 Mask,即屏蔽掉当前 token 之后的所有 token,只能依赖前面的词信息进行预测。
  • 无显式 Mask Token :GPT 没有 [MASK],而是通过连续生成下一个词的方式进行学习,并应用于文本生成任务,如 OpenAI 的 ChatGPT。

这种 Mask 方式的主要优点是适用于 文本生成任务,如对话生成、自动写作等,但缺点是缺乏双向信息,可能导致对上下文的理解不如 BERT 深入。

3. GPT vs. BERT 的 Mask 机制对比

BERT(MLM) GPT(CLM)
Mask 方式 随机 Mask 句子中的 token 通过左到右的自回归预测下一个词
训练目标 预测被 Mask 掉的 token 预测下一个 token
注意力机制 双向注意力(可以看到左右两侧的上下文) 单向注意力(只能看到前面的 token)
适用任务 适用于 NLP 理解任务,如文本分类、命名实体识别、阅读理解等 适用于文本生成任务,如对话系统、自动写作等
相关推荐
大模型最新论文速读44 分钟前
06-15 · LLM 最新论文速览
论文阅读·人工智能·深度学习·自然语言处理
人工智能培训2 小时前
数字孪生的未来发展方向探析
gpt·深度学习·机器学习·容器·知识图谱
workflower3 小时前
互联网与大数据环境下制造服务模式
人工智能·自然语言处理·数据挖掘·自动驾驶·动态规划·制造
财经资讯数据_灵砚智能3 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月15日
大数据·人工智能·python·信息可视化·自然语言处理
Jump 不二3 小时前
从 CV 扩散到 NLP:详解 Google DiffusionGemma 架构、推理机制与优劣
人工智能·深度学习·自然语言处理
诺***帝3 小时前
GPT-Image-2 氛围渲染能力全解析:光影、景深、材质还原的 Prompt 实战教程
人工智能·gpt
GEO索引未来3 小时前
AIIA可信GEO专题研讨会召开/AI全面加入618“大战”/谷歌重拳治理“AI投毒”
大数据·人工智能·gpt·chatgpt
workflower4 小时前
基于机器学习的设备故障预测分析方法
人工智能·算法·机器学习·设计模式·语言模型·自然语言处理·重构
古希腊掌管代码的神THU4 小时前
解析 MiniMax M3 多模态大模型的架构/源码?
人工智能·深度学习·自然语言处理·面试
麦cocc4 小时前
大模型的监督微调(Supervised Fine-Tuning, SFT)
人工智能·自然语言处理