【面试题】介绍一下BERT和GPT的训练方式区别?

BERT(双向编码器):

预训练任务:

  • 掩码语言模型(MLM) :随机掩盖15%的token,其中:
    • 80%替换为[MASK]
    • 10%替换为随机token
    • 10%保持原样
  • 下一句预测(NSP):判断两个句子是否连续(后续版本已移除)

训练特点:

  • 使用双向Transformer编码器
  • 同时利用左右上下文信息
  • 适合理解类任务:分类、标注、相似度计算

GPT(自回归解码器):

预训练任务:

  • 因果语言模型(CLM):给定前文预测下一个token
  • 只能利用左侧上下文,无法看到右侧信息

训练特点:

  • 使用单向Transformer解码器(带掩码注意力)
  • 通过next token prediction训练
  • 适合生成类任务:文本生成、对话、创作

关键差异:

  • BERT:双向理解,更适合文本表示学习
  • GPT:单向生成,更适合序列生成任务
  • 现代大模型(如GPT-3/4)通过scale up和指令微调弥补了单向性的限制
相关推荐
美狐美颜sdk17 分钟前
AI加持下的直播美颜sdk:动态贴纸功能的未来形态前瞻
人工智能·美颜sdk·直播美颜sdk·第三方美颜sdk·人脸美型sdk
火山引擎开发者社区19 分钟前
Force 开发者日:火山引擎 Agent 开发者生态全面升级
人工智能·火山引擎
智算菩萨19 分钟前
从对话系统到对话式智能体:对话式AI发展综述与2025年前沿整合
人工智能
yiersansiwu123d19 分钟前
AI时代的就业变革:在替代与创造中寻找平衡之道
人工智能
前进的李工32 分钟前
零知识证明:不泄露秘密也能自证
人工智能·web安全·区块链·零知识证明
Tony Bai32 分钟前
Cloudflare 2025 年度报告发布——Go 语言再次“屠榜”API 领域,AI 流量激增!
开发语言·人工智能·后端·golang
寰宇视讯33 分钟前
IDC:奥哲,2025H1蝉联第一!
人工智能
沛沛老爹42 分钟前
Web开发者快速上手AI Agent:基于LangChain的提示词应用优化实战
人工智能·python·langchain·提示词·rag·web转型
FONE_Platform44 分钟前
FONE食品饮料行业全面预算解决方案:构建韧性增长
人工智能·算法·全面预算·全面预算管理系统·企业全面预算
2501_930799241 小时前
数据安全新选择:访答本地知识库的隐私守护之道
人工智能·aigc·ocr