人工智能论文:BERT和GPT, GPT-2, GPT-3 的简明对比和主要区别

在BERT的论文里面: 2018.10 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,BERT已经解释了BERT,GPT,ELMo的区别。

*ELMo为双向RNN,请忽略。

主要区别:

  • BERT使用的是transformer的encoder,双向,专注于完形填空。对于缺失的内容和应试内容比较擅长。
  • GPT使用的是transformer的decoder,单向,专注于预测,因为decoder看不到后面的字符,训练GPT的预测性能。
  • BERT和GPT-1都使用了微调,以应对各种考试。而后期GPT-2,GPT-3抛弃微调,专注于通用人工智能。
相关推荐
AI周红伟6 小时前
AI学习第一课:OpenClaw企业实战应用工作坊
大数据·人工智能
AI科技星7 小时前
全域数学·第二部 几何本原部 《无穷维射影几何原本》合订典藏版【乖乖数学】
人工智能·线性代数·数学建模·矩阵·量子计算
无小道7 小时前
内存分配器概述&对比ptmalloc和tcmalloc
tcmalloc·对比·内存池·ptmalloc
ProgramHelpOa7 小时前
Optiver 2026 OA 全面复盘|26NG / Intern 最新高频题型整理
人工智能·算法·机器学习
MobotStone7 小时前
一个人的 AI 能力级别:从会问,到会用,再到会造系统
人工智能
暗夜猎手-大魔王7 小时前
ClaudeCode提示词工程学习
人工智能
ShareCreators7 小时前
新能源车险拐点将至,险企迎来千亿增长机遇
人工智能·汽车·blueberry
一只理智恩7 小时前
一个会“顶嘴”、会陪聊、拥有数字人的情绪型 AI
人工智能
weixin_511840477 小时前
2026年5月4日 AI对存储产业链上下游影响的深度研究
人工智能·市场分析
anew___7 小时前
深度学习基础全攻略
人工智能