【论文笔记】GPT,GPT-2,GPT-3

参考:GPT,GPT-2,GPT-3【论文精读】


GPT

Transformer的解码器,仅已知"过去",推导"未来"

论文地址:Improving Language Understanding by Generative Pre-Training

半监督学习:无标签数据集预训练模型,有标签数据集 微调


BERT

Transformer的编码器,完形填空,已知 "过去" 和 "未来",推导中间值

论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding



GPT-2

zero-ont - 探索 模型泛化能力;兼容 下游任务 的无障碍使用;

论文地址:Language Models are Unsupervised Multitask Learners


GPT-3

引入 prompt,提升 GPT-2 的有效性;

论文地址:language models are few-shot learners



写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶

相关推荐
s1ckrain2 小时前
【论文阅读】VARGPT-v1.1
论文阅读·多模态大模型·统一生成模型
Catching Star5 小时前
【论文笔记】【强化微调】Vision-R1:首个针对多模态 LLM 制定的强化微调方法,以 7B 比肩 70B
论文阅读·强化微调
王上上5 小时前
【论文阅读41】-LSTM-PINN预测人口
论文阅读·人工智能·lstm
s1ckrain16 小时前
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
论文阅读·强化学习·多模态大模型·vlm
资讯分享周19 小时前
Alpha系统联结大数据、GPT两大功能,助力律所管理降本增效
大数据·gpt
张较瘦_1 天前
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究:来龙去脉与创新突破
论文阅读·人工智能
猫头虎2 天前
猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP
运维·人工智能·gpt·开源·自动化·文心一言·ai编程
北京地铁1号线2 天前
GPT-2论文阅读:Language Models are Unsupervised Multitask Learners
论文阅读·gpt·语言模型
张较瘦_2 天前
[论文阅读] 人工智能 + 软件工程 | 软件架构中自然问题主动辅助研究:从挑战到解决方案
论文阅读·人工智能·软件工程
有Li3 天前
通过具有一致性嵌入的大语言模型实现端到端乳腺癌放射治疗计划制定|文献速递-最新论文分享
论文阅读·深度学习·分类·医学生