【面试题】介绍一下BERT和GPT的训练方式区别?

BERT(双向编码器):

预训练任务:

  • 掩码语言模型(MLM) :随机掩盖15%的token,其中:
    • 80%替换为[MASK]
    • 10%替换为随机token
    • 10%保持原样
  • 下一句预测(NSP):判断两个句子是否连续(后续版本已移除)

训练特点:

  • 使用双向Transformer编码器
  • 同时利用左右上下文信息
  • 适合理解类任务:分类、标注、相似度计算

GPT(自回归解码器):

预训练任务:

  • 因果语言模型(CLM):给定前文预测下一个token
  • 只能利用左侧上下文,无法看到右侧信息

训练特点:

  • 使用单向Transformer解码器(带掩码注意力)
  • 通过next token prediction训练
  • 适合生成类任务:文本生成、对话、创作

关键差异:

  • BERT:双向理解,更适合文本表示学习
  • GPT:单向生成,更适合序列生成任务
  • 现代大模型(如GPT-3/4)通过scale up和指令微调弥补了单向性的限制
相关推荐
大千AI助手10 分钟前
概率单位回归(Probit Regression)详解
人工智能·机器学习·数据挖掘·回归·大千ai助手·概率单位回归·probit回归
狂炫冰美式40 分钟前
3天,1人,从0到付费产品:AI时代个人开发者的生存指南
前端·人工智能·后端
LCG元1 小时前
垂直Agent才是未来:详解让大模型"专业对口"的三大核心技术
人工智能
我不是QI2 小时前
周志华《机器学习—西瓜书》二
人工智能·安全·机器学习
操练起来2 小时前
【昇腾CANN训练营·第八期】Ascend C生态兼容:基于PyTorch Adapter的自定义算子注册与自动微分实现
人工智能·pytorch·acl·昇腾·cann
KG_LLM图谱增强大模型2 小时前
[500页电子书]构建自主AI Agent系统的蓝图:谷歌重磅发布智能体设计模式指南
人工智能·大模型·知识图谱·智能体·知识图谱增强大模型·agenticai
声网2 小时前
活动推荐丨「实时互动 × 对话式 AI」主题有奖征文
大数据·人工智能·实时互动
caiyueloveclamp2 小时前
【功能介绍03】ChatPPT好不好用?如何用?用户操作手册来啦!——【AI溯源篇】
人工智能·信息可视化·powerpoint·ai生成ppt·aippt
q***48412 小时前
Vanna AI:告别代码,用自然语言轻松查询数据库,领先的RAG2SQL技术让结果更智能、更精准!
人工智能·microsoft
LCG元2 小时前
告别空谈!手把手教你用LangChain构建"能干活"的垂直领域AI Agent
人工智能