【论文笔记】GPT,GPT-2,GPT-3

参考:GPT,GPT-2,GPT-3【论文精读】


GPT

Transformer的解码器,仅已知"过去",推导"未来"

论文地址:Improving Language Understanding by Generative Pre-Training

半监督学习:无标签数据集预训练模型,有标签数据集 微调


BERT

Transformer的编码器,完形填空,已知 "过去" 和 "未来",推导中间值

论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding



GPT-2

zero-ont - 探索 模型泛化能力;兼容 下游任务 的无障碍使用;

论文地址:Language Models are Unsupervised Multitask Learners


GPT-3

引入 prompt,提升 GPT-2 的有效性;

论文地址:language models are few-shot learners



写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶

相关推荐
王上上1 小时前
【论文阅读30】Bi-LSTM(2024)
论文阅读·人工智能·lstm
qq_416276421 小时前
作为点的对象CenterNet论文阅读
论文阅读
写代码的小阿帆9 小时前
Fractal Generative Models论文阅读笔记与代码分析
论文阅读·stable diffusion·transformer
王上上9 小时前
【论文阅读29】区间预测CIPM(2025)
论文阅读
Matrix_1110 小时前
论文阅读:Matting by Generation
论文阅读·人工智能·计算摄影
王上上13 小时前
【论文阅读28】-CNN-BiLSTM-Attention-(2024)
论文阅读·人工智能·cnn
大写-凌祁1 天前
论文阅读:HySCDG生成式数据处理流程
论文阅读·人工智能·笔记·python·机器学习
颜妮儿1 天前
论文笔记——相干体技术在裂缝预测中的应用研究
论文阅读
柠石榴1 天前
【论文阅读笔记】《A survey on deep learning approaches for text-to-SQL》
论文阅读·笔记·深度学习·nlp·text-to-sql
张较瘦_1 天前
[论文阅读] 人工智能 | 搜索增强LLMs的用户偏好与性能分析
论文阅读·人工智能