人工智能论文:BERT和GPT, GPT-2, GPT-3 的简明对比和主要区别

在BERT的论文里面: 2018.10 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,BERT已经解释了BERT,GPT,ELMo的区别。

*ELMo为双向RNN,请忽略。

主要区别:

  • BERT使用的是transformer的encoder,双向,专注于完形填空。对于缺失的内容和应试内容比较擅长。
  • GPT使用的是transformer的decoder,单向,专注于预测,因为decoder看不到后面的字符,训练GPT的预测性能。
  • BERT和GPT-1都使用了微调,以应对各种考试。而后期GPT-2,GPT-3抛弃微调,专注于通用人工智能。
相关推荐
蓦然回首却已人去楼空23 分钟前
Build a Large Language Model (From Scratch) 序章
人工智能·语言模型·自然语言处理
CM莫问26 分钟前
<论文>(微软)WINA:用于加速大语言模型推理的权重感知神经元激活
人工智能·算法·语言模型·自然语言处理·大模型·推理加速
拾忆-eleven28 分钟前
NLP学习路线图(二十六):自注意力机制
人工智能·深度学习
FreeBuf_30 分钟前
最新研究揭示云端大语言模型防护机制的成效与缺陷
网络·安全·语言模型
MYH5161 小时前
在NLP文本处理中,将字符映射到阿拉伯数字(构建词汇表vocab)的核心目的和意义
人工智能·深度学习·自然语言处理
要努力啊啊啊2 小时前
KV Cache:大语言模型推理加速的核心机制详解
人工智能·语言模型·自然语言处理
mzlogin4 小时前
DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI
人工智能
归去_来兮4 小时前
知识图谱技术概述
大数据·人工智能·知识图谱
就是有点傻4 小时前
VM图像处理之图像二值化
图像处理·人工智能·计算机视觉
行云流水剑4 小时前
【学习记录】深入解析 AI 交互中的五大核心概念:Prompt、Agent、MCP、Function Calling 与 Tools
人工智能·学习·交互