【面试题】介绍一下BERT和GPT的训练方式区别?

BERT(双向编码器):

预训练任务:

  • 掩码语言模型(MLM) :随机掩盖15%的token,其中:
    • 80%替换为MASK
    • 10%替换为随机token
    • 10%保持原样
  • 下一句预测(NSP):判断两个句子是否连续(后续版本已移除)

训练特点:

  • 使用双向Transformer编码器
  • 同时利用左右上下文信息
  • 适合理解类任务:分类、标注、相似度计算

GPT(自回归解码器):

预训练任务:

  • 因果语言模型(CLM):给定前文预测下一个token
  • 只能利用左侧上下文,无法看到右侧信息

训练特点:

  • 使用单向Transformer解码器(带掩码注意力)
  • 通过next token prediction训练
  • 适合生成类任务:文本生成、对话、创作

关键差异:

  • BERT:双向理解,更适合文本表示学习
  • GPT:单向生成,更适合序列生成任务
  • 现代大模型(如GPT-3/4)通过scale up和指令微调弥补了单向性的限制
相关推荐
大数据在线8 小时前
布局Agentic AI,亚马逊云科技组合拳再升级
人工智能·openai·亚马逊云科技·智能体·agentic ai
皮皮学姐分享-ppx11 小时前
政府绿色采购数据库(2015-2024.3)
大数据·网络·数据库·人工智能·制造
GIS数据转换器11 小时前
基于3D GIS的监控视频精准标定平台
人工智能·物联网·3d·音视频·无人机·知识图谱
专注VB编程开发20年12 小时前
AI 生成C# WinForm 窗体 = 目前就是垃圾
开发语言·人工智能·c#
深小乐12 小时前
Claude Fable5 尝鲜,效果挺不错
人工智能
Nayxxu12 小时前
Gemini + RAG 企业知识库教程:从文档切片到答案生成
运维·人工智能
冬奇Lab12 小时前
真正的 AI-Native Workflow 是什么?——四个判断测试
人工智能·agent
冬奇Lab12 小时前
每日一个开源项目(第128篇):Agent Skills - 给 AI 编程 Agent 装上工程纪律
人工智能·开源·资讯
Deepoch13 小时前
Deepoc VLA开发板:采摘机器人的环境鲁棒作业与不确定性应对
人工智能·机器人·采摘机器人·deepoc