【论文笔记】GPT,GPT-2,GPT-3

参考:GPT,GPT-2,GPT-3【论文精读】


GPT

Transformer的解码器,仅已知"过去",推导"未来"

论文地址:Improving Language Understanding by Generative Pre-Training

半监督学习:无标签数据集预训练模型,有标签数据集 微调


BERT

Transformer的编码器,完形填空,已知 "过去" 和 "未来",推导中间值

论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding



GPT-2

zero-ont - 探索 模型泛化能力;兼容 下游任务 的无障碍使用;

论文地址:Language Models are Unsupervised Multitask Learners


GPT-3

引入 prompt,提升 GPT-2 的有效性;

论文地址:language models are few-shot learners



写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶

相关推荐
CV-杨帆4 小时前
论文阅读:2025 arxiv Aligning to What? Limits to RLHF Based Alignment
论文阅读
MonkeyKing_sunyuhua1 天前
2.2 主流大模型架构:GPT、DeepSeek、GLM、Claude、QwQ、Qwen2.5-Max等模型的比较与应用场景
gpt·架构
nenchoumi31191 天前
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation
论文阅读·人工智能·笔记·学习·vln
@PHARAOH1 天前
HOW - 如何模拟实现 gpt 展示答案的交互效果
gpt·交互
何大春1 天前
【视频时刻检索】Text-Video Retrieval via Multi-Modal Hypergraph Networks 论文阅读
论文阅读·深度学习·神经网络·计算机视觉·视觉检测·论文笔记
王上上1 天前
【论文阅读25】-滑坡时间预测-PFTF
论文阅读
李一帆'1 天前
【论文阅读】Hierarchical Group-Level Emotion Recognition
论文阅读·计算机视觉
nenchoumi31192 天前
VLA 论文精读(十八)π0.5: a Vision-Language-Action Model with Open-World Generalization
论文阅读·人工智能·深度学习·语言模型·vla
未来智慧谷2 天前
大模型工业化元年:GPT-5开启通用AI新纪元,中国技术如何破局?
人工智能·gpt
樱花穿过千岛湖3 天前
第六章:Multi-Backend Configuration
人工智能·python·gpt·学习·ai