【面试题】介绍一下BERT和GPT的训练方式区别?

BERT(双向编码器):

预训练任务:

  • 掩码语言模型(MLM) :随机掩盖15%的token,其中:
    • 80%替换为[MASK]
    • 10%替换为随机token
    • 10%保持原样
  • 下一句预测(NSP):判断两个句子是否连续(后续版本已移除)

训练特点:

  • 使用双向Transformer编码器
  • 同时利用左右上下文信息
  • 适合理解类任务:分类、标注、相似度计算

GPT(自回归解码器):

预训练任务:

  • 因果语言模型(CLM):给定前文预测下一个token
  • 只能利用左侧上下文,无法看到右侧信息

训练特点:

  • 使用单向Transformer解码器(带掩码注意力)
  • 通过next token prediction训练
  • 适合生成类任务:文本生成、对话、创作

关键差异:

  • BERT:双向理解,更适合文本表示学习
  • GPT:单向生成,更适合序列生成任务
  • 现代大模型(如GPT-3/4)通过scale up和指令微调弥补了单向性的限制
相关推荐
艾莉丝努力练剑13 小时前
【Linux进程控制(三)】实现自主Shell命令行解释器
linux·运维·服务器·c++·人工智能·安全·云原生
薛定谔的猫198213 小时前
十四、基于 BERT 的微博评论情感分析模型训练实践
人工智能·深度学习·bert
asaotomo13 小时前
一款 AI 驱动的新一代安全运维代理 —— DeepSentry(深哨)
运维·人工智能·安全·ai·go
学步_技术13 小时前
食品计算-Multimodal Food Learning
人工智能·深度学习·计算机视觉·语言模型
电商API&Tina13 小时前
唯品会获得vip商品详情 API 返回值说明
java·大数据·开发语言·数据库·人工智能·spring
人工智能AI技术13 小时前
【C#程序员入门AI】Microsoft Extensions for AI (MEAI):统一LLM调用接口,告别厂商绑定
人工智能·c#
shangjian00713 小时前
AI-大语言模型LLM-模型微调3-Prompt Tuning
人工智能·语言模型·prompt
Agentcometoo13 小时前
2026 AI 元年:从工具应用到逻辑重构的范式迁移
人工智能·ai智能体·智能体来了·2026ai元年
丝斯201113 小时前
AI学习笔记整理(65)——多模态大模型
人工智能·笔记·学习
发哥来了13 小时前
《AI图生视频技术深度剖析:原理、应用与发展趋势》
人工智能·音视频