【论文笔记】GPT,GPT-2,GPT-3

参考:GPT,GPT-2,GPT-3【论文精读】


GPT

Transformer的解码器,仅已知"过去",推导"未来"

论文地址:Improving Language Understanding by Generative Pre-Training

半监督学习:无标签数据集预训练模型,有标签数据集 微调


BERT

Transformer的编码器,完形填空,已知 "过去" 和 "未来",推导中间值

论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding



GPT-2

zero-ont - 探索 模型泛化能力;兼容 下游任务 的无障碍使用;

论文地址:Language Models are Unsupervised Multitask Learners


GPT-3

引入 prompt,提升 GPT-2 的有效性;

论文地址:language models are few-shot learners



写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶

相关推荐
百***24378 小时前
GPT-5.2 技术升级与极速接入指南:从版本迭代到落地实践
大数据·人工智能·gpt
youcans_10 小时前
【医学影像 AI】FunBench:评估多模态大语言模型的眼底影像解读能力
论文阅读·人工智能·大语言模型·多模态·眼底图像
Cuby!12 小时前
【AFDM与信号处理:论文阅读】仿射频分复用:扩展OFDM以实现场景灵活性和弹性
论文阅读·笔记·学习·信息与通信·信号处理
百***243713 小时前
GPT-5.2 vs Claude-Opus-4.5 深度测评与选型指南:从能力对比到第三方API落地实践
gpt
Constantine3713 小时前
GPT-5.2正式发布!国内首发“喂饭级”使用教程
gpt
古城小栈14 小时前
边缘大模型本地部署与推理实战:以GPT-OSS-20B为例
人工智能·gpt·语言模型·边缘计算
Ztop15 小时前
没有发布会,GPT Image 1.5 凌晨发布,实测与Nano Banana2相比,各有优势,但也一言难尽...
gpt·chatgpt
百***243716 小时前
GPT-5.2核心优势详解与极速接入指南(含与GPT-5.1对比)
人工智能·gpt
m0_6501082417 小时前
DETR3D:基于 3D-to-2D 查询的多视图 3D 目标检测框架
论文阅读·自动驾驶·3d目标检测·rgb 多视角图像·无预测深度图依赖·detr3d
飞哥数智坊18 小时前
TRAE 内 GPT-5.2 实测:10 轮对话,生成的代码一次都没让我撤回
人工智能·gpt·trae