【论文笔记】GPT,GPT-2,GPT-3

参考:GPT,GPT-2,GPT-3【论文精读】


GPT

Transformer的解码器,仅已知"过去",推导"未来"

论文地址:Improving Language Understanding by Generative Pre-Training

半监督学习:无标签数据集预训练模型,有标签数据集 微调


BERT

Transformer的编码器,完形填空,已知 "过去" 和 "未来",推导中间值

论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding



GPT-2

zero-ont - 探索 模型泛化能力;兼容 下游任务 的无障碍使用;

论文地址:Language Models are Unsupervised Multitask Learners


GPT-3

引入 prompt,提升 GPT-2 的有效性;

论文地址:language models are few-shot learners



写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶

相关推荐
大模型最新论文速读17 小时前
UnityMAS-O:专用于多 agent 工作流训练的 RL 框架
论文阅读·人工智能·深度学习·机器学习·自然语言处理
大模型最新论文速读19 小时前
06-04 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
森诺Alyson19 小时前
前沿技术借鉴研讨-2026.6.4(孕期持续累积高温暴露显著升高妊娠期糖尿病患病风险)
论文阅读·人工智能·经验分享
烬、、、21 小时前
如何用 Claude Code 调用 gpt-image2 生成图片?
人工智能·笔记·gpt·prompt·skills
jike88ai21 小时前
Windows版Claude Code安装与API对接教程(附常见问题解决)
windows·gpt·node.js·claude·claudecode·88api
m0_5358175521 小时前
Mac下Claude Code完整配置指南:API中转+环境变量设置一步到位
gpt·macos·node.js·api·claude·claudecode·88api
searchforAI1 天前
Agent Skills知识库检索比RAG强吗?技术原理拆解
人工智能·gpt·ai·agent·rag·skill·claudecode
程序员佳佳1 天前
连续使用三个月向量 API 中转站,它真的适配向量落地场景吗?
人工智能·gpt·aigc·ai编程·agi
m0_535817552 天前
macOS下Claude Code从0到1配置教程(附API密钥获取+常见报错修复)
gpt·macos·node.js·api·claude·claudecode·88api
诸葛思颖2 天前
论文阅读笔记——NetLLM :当LLM遇上网络管理
论文阅读·笔记