【论文笔记】GPT,GPT-2,GPT-3

参考:GPT,GPT-2,GPT-3【论文精读】


GPT

Transformer的解码器,仅已知"过去",推导"未来"

论文地址:Improving Language Understanding by Generative Pre-Training

半监督学习:无标签数据集预训练模型,有标签数据集 微调


BERT

Transformer的编码器,完形填空,已知 "过去" 和 "未来",推导中间值

论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding



GPT-2

zero-ont - 探索 模型泛化能力;兼容 下游任务 的无障碍使用;

论文地址:Language Models are Unsupervised Multitask Learners


GPT-3

引入 prompt,提升 GPT-2 的有效性;

论文地址:language models are few-shot learners



写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶

相关推荐
dundunmm14 小时前
【论文阅读】Self-Correcting Clustering
论文阅读·深度学习·数据挖掘·聚类
UQI-LIUWJ1 天前
论文笔记:Instruction-Tuning Llama-3-8B Excels in City-Scale MobilityPrediction
论文阅读
TGITCIC1 天前
BERT与Transformer到底选哪个-下部
人工智能·gpt·大模型·aigc·bert·transformer
胆怯的ai萌新1 天前
论文阅读《Proximal Curriculum for Reinforcement Learning Agents》——提升智能体学习速度的
论文阅读
在下_诸葛2 天前
DeepSeek的API调用 | 结合DeepSeek API文档 | Python环境 | 对话补全(二)
人工智能·python·gpt·prompt·aigc
TGITCIC2 天前
BERT与Transformer到底选哪个-上部
人工智能·gpt·大模型·aigc·bert·transformer
花千树-0102 天前
MCP - 使用 BlenderMCP 让 Claude AI 控制你的 Blender 模型创作
人工智能·gpt·3d·aigc·blender
墨绿色的摆渡人2 天前
论文笔记(七十四)Dense Policy: Bidirectional Autoregressive Learning of Actions
论文阅读
s1ckrain2 天前
【论文阅读】VideoMerge: Towards Training-free Long Video Generation
论文阅读·人工智能·计算机视觉
Ayakanoinu2 天前
【论文阅读】Dynamic Adversarial Patch for Evading Object Detection Models
论文阅读·目标检测·目标跟踪