NLP高频面试题(七)——GPT和Bert的mask有什么区别?

GPT 和 BERT 的 Mask 机制对比:核心区别与优化策略

在NLP领域,GPT 和 BERT 是最具代表性的预训练语言模型之一。它们都在训练过程中使用了 Mask 机制来引导模型学习语言表示,但具体实现方式和目标却有所不同。本文将深入探讨 GPT 和 BERT 的 Mask 方法的核心区别,并分析其优化策略。

1. BERT 的 Mask 机制:基于 MLM(Masked Language Model)

BERT(Bidirectional Encoder Representations from Transformers)采用 (Masked Language Model) 进行训练,即在输入文本中随机 Mask 掉部分 token,让模型在上下文中预测这些被 Mask 掉的 token。

BERT 的 Mask 方式具有以下特点:

  • Token 级别的 Mask :BERT 会随机选择一定比例的 token 并用 [MASK] 进行替换,例如:

    "I love [MASK] dogs."

    这里的 my 可能会被 Mask 掉,模型需要结合上下文来预测原始词。

  • 基于子词(Subword)级别的 Mask :BERT 采用 BPE(Byte-Pair Encoding) 或 WordPiece 进行分词,一个单词可能被拆分成多个子词(subword)。

    例如:

    "running" → ["run", "##ning"]

    如果只 Mask 掉 "##ning",模型很容易猜测出原单词是 "running"。

  • Mask 预测的优化

    • Span Mask(片段 Mask) :后续研究发现,单独 Mask 子词会让任务变得过于简单,因此提出了 Span Mask,即将整个单词或一段短语整体 Mask 掉,从而增加任务的难度。
    • 命名实体 Mask (适用于中文):中文的分词方式不同于英文,百度等团队在优化 BERT 训练时提出 Named Entity Masking(命名实体 Mask),专门对人名、地名等实体进行 Mask,使模型更好地学习实体识别能力。

2. GPT 的 Mask 机制:基于 CLM(Causal Language Model)

与 BERT 不同,GPT(Generative Pre-trained Transformer)采用的是 自回归语言模型(Causal Language Model, CLM) ,其训练目标是通过前面的词预测下一个词,而不是填补 Mask 掉的部分。因此,GPT 并不使用 [MASK],而是通过 自回归(Autoregressive) 方式进行训练,即:

"I love my" → 预测 "dog"

GPT 训练时,模型只能看到当前词及其之前的词,而不能看到未来的词,因此它的 Mask 机制表现为单向(从左到右)遮蔽

  • 自回归 Mask(Causal Mask) :在 Transformer 计算注意力时,GPT 采用一个 上三角 Mask,即屏蔽掉当前 token 之后的所有 token,只能依赖前面的词信息进行预测。
  • 无显式 Mask Token :GPT 没有 [MASK],而是通过连续生成下一个词的方式进行学习,并应用于文本生成任务,如 OpenAI 的 ChatGPT。

这种 Mask 方式的主要优点是适用于 文本生成任务,如对话生成、自动写作等,但缺点是缺乏双向信息,可能导致对上下文的理解不如 BERT 深入。

3. GPT vs. BERT 的 Mask 机制对比

BERT(MLM) GPT(CLM)
Mask 方式 随机 Mask 句子中的 token 通过左到右的自回归预测下一个词
训练目标 预测被 Mask 掉的 token 预测下一个 token
注意力机制 双向注意力(可以看到左右两侧的上下文) 单向注意力(只能看到前面的 token)
适用任务 适用于 NLP 理解任务,如文本分类、命名实体识别、阅读理解等 适用于文本生成任务,如对话系统、自动写作等
相关推荐
闲人编程4 小时前
深入浅出Transformer:使用Hugging Face库快速上手NLP
python·深度学习·自然语言处理·nlp·transformer·hugging face·codecapsule
可触的未来,发芽的智生5 小时前
触摸未来2025-10-18:生成文字的小宇宙矩阵溯源
人工智能·python·神经网络·程序人生·自然语言处理
sunkl_7 小时前
JoyAgent问数多表关联Bug修复
人工智能·自然语言处理
悟乙己11 小时前
大型语言模型(LLM)文本中提取结构化信息:LangExtract(一)
人工智能·语言模型·自然语言处理
海森大数据21 小时前
AI破解数学界遗忘谜题:GPT-5重新发现尘封二十年的埃尔德什问题解法
人工智能·gpt
七牛云行业应用1 天前
从API调用到智能体编排:GPT-5时代的AI开发新模式
大数据·人工智能·gpt·openai·agent开发
l12345sy1 天前
Day32_【 NLP _2.RNN及其变体 _(3) GRU】
rnn·自然语言处理·gru
OpenBayes2 天前
教程上新|重新定义下一代 OCR:IBM 最新开源 Granite-docling-258M,实现端到端的「结构+内容」统一理解
人工智能·深度学习·机器学习·自然语言处理·ocr·图像识别·文档处理
艾醒(AiXing-w)2 天前
探索大语言模型(LLM): 大模型应用与对应的硬件选型一览表
人工智能·语言模型·自然语言处理