技术栈
gpt1
跳跳糖炒酸奶
21 天前
人工智能
·
自然语言处理
·
大模型
·
transformer
·
gpt1
第十章、GPT1:Improving Language Understanding by Generative Pre-Training(代码部分)
对于代码部分首先先把代码运行起来,其次逐块来看每部分代码在做什么。论文:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
跳跳糖炒酸奶
1 个月前
transformer
·
解码器
·
gpt1
第九章、GPT1:Improving Language Understanding by Generative Pre-Training(理论部分)
前面我们已经对transfoemer模型以及transformers库做了详细的介绍,接下来我们来看看GPT系列的开篇之作,GPT1它提出了生成式预训练模型,也是至今为止大语言模型的常用训练方式。
我是有底线的