人工智能论文：BERT和GPT, GPT-2, GPT-3 的简明对比和主要区别

Ankie Wan2024-04-30 10:17

在BERT的论文里面： 2018.10 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding，BERT已经解释了BERT，GPT，ELMo的区别。

*ELMo为双向RNN，请忽略。

主要区别：

BERT使用的是transformer的encoder，双向，专注于完形填空。对于缺失的内容和应试内容比较擅长。
GPT使用的是transformer的decoder，单向，专注于预测，因为decoder看不到后面的字符，训练GPT的预测性能。
BERT和GPT-1都使用了微调，以应对各种考试。而后期GPT-2，GPT-3抛弃微调，专注于通用人工智能。

上一篇：【机器学习】Voting集成学习算法：分类任务中的新利器

下一篇：人工智能论文：GPT, GPT-2, GPT-3 对比和演进的思路

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流