人工智能论文:BERT和GPT, GPT-2, GPT-3 的简明对比和主要区别

在BERT的论文里面: 2018.10 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,BERT已经解释了BERT,GPT,ELMo的区别。

*ELMo为双向RNN,请忽略。

主要区别:

  • BERT使用的是transformer的encoder,双向,专注于完形填空。对于缺失的内容和应试内容比较擅长。
  • GPT使用的是transformer的decoder,单向,专注于预测,因为decoder看不到后面的字符,训练GPT的预测性能。
  • BERT和GPT-1都使用了微调,以应对各种考试。而后期GPT-2,GPT-3抛弃微调,专注于通用人工智能。
相关推荐
DFminer15 小时前
【仿生机器人】基于 GPT-SoVITS 的 发声器
gpt·机器人
ChinaRainbowSea15 小时前
5. Prompt 提示词
java·人工智能·后端·spring·prompt·ai编程
哪 吒15 小时前
本地安装Codex,国内直接使用GPT-5-Codex
gpt·ai·chatgpt·codex·gpt-5·gpt-5 codex
IT_陈寒15 小时前
Vue3性能优化实战:这5个技巧让我的应用加载速度提升70%
前端·人工智能·后端
机器人行业研究员15 小时前
蓝点触控:力觉是机器人“稳不稳、准不准”的关键
人工智能·机器人
央链知播16 小时前
王玉真:可信资产与数链金融的核心根基——构建全链路可信信用体系
人工智能·金融·重构·web3·区块链·业界资讯
路人与大师16 小时前
AI Agent的演进之路:从检索增强到世界模型的六代变革
人工智能
szxinmai主板定制专家16 小时前
ZYNQ 平台下的四声道超声流量计设计与实现
运维·arm开发·人工智能·分布式·fpga开发
码猩16 小时前
YOLO通用无人机目标检测框架
人工智能·yolo·目标检测
一百天成为python专家16 小时前
机器学习之逻辑回归(梯度下降,Z标准化,0-1归一化)
人工智能·opencv·机器学习·计算机视觉·数据挖掘·数据分析·逻辑回归