【面试题】介绍一下BERT和GPT的训练方式区别?

BERT(双向编码器):

预训练任务:

  • 掩码语言模型(MLM) :随机掩盖15%的token,其中:
    • 80%替换为[MASK]
    • 10%替换为随机token
    • 10%保持原样
  • 下一句预测(NSP):判断两个句子是否连续(后续版本已移除)

训练特点:

  • 使用双向Transformer编码器
  • 同时利用左右上下文信息
  • 适合理解类任务:分类、标注、相似度计算

GPT(自回归解码器):

预训练任务:

  • 因果语言模型(CLM):给定前文预测下一个token
  • 只能利用左侧上下文,无法看到右侧信息

训练特点:

  • 使用单向Transformer解码器(带掩码注意力)
  • 通过next token prediction训练
  • 适合生成类任务:文本生成、对话、创作

关键差异:

  • BERT:双向理解,更适合文本表示学习
  • GPT:单向生成,更适合序列生成任务
  • 现代大模型(如GPT-3/4)通过scale up和指令微调弥补了单向性的限制
相关推荐
斯普信专业组2 分钟前
AI重构混沌工程:智能韧性守护系统高可用时代已来
人工智能·重构·混沌工程
BFT白芙堂18 分钟前
【买机器人,上BFT】北京大学联合项目 论文解读 | H2R:一种用于机器人视频预训练的人机数据增强技术
人工智能·机器学习·3d·机器人·franka·leaphand·灵巧手方案
MediaTea37 分钟前
AI 术语通俗词典:LLM(大语言模型)
人工智能·语言模型·自然语言处理
金井PRATHAMA1 小时前
知识图谱的表示与推理对自然语言处理中因果性语义逻辑的影响与启示研究
人工智能·自然语言处理·知识图谱
MoRanzhi12031 小时前
12. NumPy 数据分析与图像处理入门
大数据·图像处理·人工智能·python·矩阵·数据分析·numpy
网安INF1 小时前
【论文阅读】-《Attention Is All You Need》(Transformer)
论文阅读·人工智能·深度学习·机器学习·transformer
whaosoft-1431 小时前
51c自动驾驶~合集33
人工智能
ywfwyht1 小时前
VLA自动驾驶方案的设计及实现
人工智能·自动驾驶
二向箔reverse1 小时前
从特征到应用:用 dlib+OpenCV 实现实时疲劳检测(基于眼睛纵横比)
人工智能·opencv·计算机视觉
databook1 小时前
让YOLO飞起来:从CPU到GPU的配置指南
人工智能·python·图像识别