【面试题】介绍一下BERT和GPT的训练方式区别?

BERT(双向编码器):

预训练任务:

  • 掩码语言模型(MLM) :随机掩盖15%的token,其中:
    • 80%替换为MASK
    • 10%替换为随机token
    • 10%保持原样
  • 下一句预测(NSP):判断两个句子是否连续(后续版本已移除)

训练特点:

  • 使用双向Transformer编码器
  • 同时利用左右上下文信息
  • 适合理解类任务:分类、标注、相似度计算

GPT(自回归解码器):

预训练任务:

  • 因果语言模型(CLM):给定前文预测下一个token
  • 只能利用左侧上下文,无法看到右侧信息

训练特点:

  • 使用单向Transformer解码器(带掩码注意力)
  • 通过next token prediction训练
  • 适合生成类任务:文本生成、对话、创作

关键差异:

  • BERT:双向理解,更适合文本表示学习
  • GPT:单向生成,更适合序列生成任务
  • 现代大模型(如GPT-3/4)通过scale up和指令微调弥补了单向性的限制
相关推荐
雪隐2 分钟前
个人电脑玩AI-09让5060 Ti给你打工——让 AI 读懂你的资料
人工智能·后端
大模型真好玩18 分钟前
LangChain DeepAgents 速通指南(十)—— DeepAgents Code 智能体服务核心源码解读
人工智能·langchain·agent
网易云信35 分钟前
「帝王蟹」企业AI落地实战营西安站落幕:共探“人工智能+”落地深水区
人工智能·agent·产品
阿虎儿39 分钟前
本地构建的自定义sandbox-extra镜像推送到沙盒daytona的snapshot列表中
人工智能
网易云信1 小时前
Agent在客服和营销领域走到哪一步了?深度解析3个挑战和5大趋势
人工智能·agent
网易云信1 小时前
AI 融入协作场景,Hermes 接入云信 IM
人工智能·agent
vivo互联网技术1 小时前
ICLR 2026 | 基于后验采样的图像恢复方法LearnIR:人脸去阴影、去雾
人工智能·算法·aigc
饼干哥哥2 小时前
ChatGPT会员掉了,代充黑幕藏不住了
人工智能·操作系统·产品
ZzT2 小时前
Claude Sonnet 5 来了:Opus 级的能力,Sonnet 的价
人工智能·ai编程·claude
用户5191495848452 小时前
CVE-2025-14440 漏洞利用工具 - WordPress 插件认证绕过检测
人工智能·aigc