【面试题】介绍一下BERT和GPT的训练方式区别?

BERT(双向编码器):

预训练任务:

  • 掩码语言模型(MLM) :随机掩盖15%的token,其中:
    • 80%替换为[MASK]
    • 10%替换为随机token
    • 10%保持原样
  • 下一句预测(NSP):判断两个句子是否连续(后续版本已移除)

训练特点:

  • 使用双向Transformer编码器
  • 同时利用左右上下文信息
  • 适合理解类任务:分类、标注、相似度计算

GPT(自回归解码器):

预训练任务:

  • 因果语言模型(CLM):给定前文预测下一个token
  • 只能利用左侧上下文,无法看到右侧信息

训练特点:

  • 使用单向Transformer解码器(带掩码注意力)
  • 通过next token prediction训练
  • 适合生成类任务:文本生成、对话、创作

关键差异:

  • BERT:双向理解,更适合文本表示学习
  • GPT:单向生成,更适合序列生成任务
  • 现代大模型(如GPT-3/4)通过scale up和指令微调弥补了单向性的限制
相关推荐
ShareCreators6 小时前
洞见 | 汽车
人工智能·汽车·blueberry
2501_927283586 小时前
荣联汇智立体仓库:为智慧工厂搭建高效“骨骼”与“中枢”
大数据·运维·人工智能·重构·自动化·制造
七夜zippoe6 小时前
OpenClaw 多模型配置与切换详解
人工智能·配置·模型·切换·openclaw
. . . . .6 小时前
Markdown 处理工具 - Remark
人工智能
NOCSAH6 小时前
统好AI数智平台SRM模块:智能采购管理实操
大数据·人工智能
Ai173163915796 小时前
10大算力芯片某某XXU全解析:CPU/GPU/TPU/NPU/LPU/FPGA/RPU/BPU/DPU/GPGPU
大数据·图像处理·人工智能·深度学习·计算机视觉·自动驾驶·知识图谱
连线Insight6 小时前
从流量分发到信任基建:梦饷科技的加速跃迁
人工智能·科技
jonyleek6 小时前
私有化部署大模型时,如何平衡“数据安全”与“推理性能”的矛盾?
人工智能·ai·大模型·jvs·ai套件·jvs-ai套件
我是大聪明.6 小时前
大模型Tokenizer原理:深入理解BPE与WordPiece子词编码技术
人工智能·深度学习·机器学习
qq_411262426 小时前
四博 AI 智能音箱 4G S3 版本工程落地方案:三模联网、远场唤醒、打断播放与 AI 会话框架
人工智能·智能音箱