大语言模型系列-GPT-1

文章目录


前言

前文提到的ELMo虽然解决了词嵌入多义词的问题,但存在如下缺点:

  1. 基于RNN的网络结构使得其特征提取能力弱,训练难且时间长
  2. 预训练模型(仅用于特征抽取)和实际下游任务模型仍是分开的、非端到端的

GPT-1基于上述缺点进行了改进。


提示:以下是本篇文章正文内容,下面内容可供参考

一、GPT-1网络结构和流程

网络结构方面,GPT-1使用Transformer Decoder(不包含Encoder-Decoder Attention)代替了BiLSTM

ps:

  • Decoder部分具有自回归性质,即在生成当前输出时,会考虑之前生成的所有输出。这种特性使得GPT能够在生成过程中利用上下文信息,产生连贯且上下文相关的输出。
  • 虽然encoder和decoder都包含自注意力机制,但它们在任务和使用方式上存在区别。Encoder主要用于对输入序列进行编码,而decoder则用于生成序列。因此,自回归性质更强调decoder的任务和属性。

基于GPT-1的NLP任务分为两个阶段:

  1. 第一阶段是在大型文本语料库上进行无监督的预训练。
  2. 第二个阶段是在做下游任务时将模型调整为具有标记数据的判别任务,然后进行有监督的微调。

上图所示一目了然,可以将所有任务抽象成四种情况,所有情况都需要增加起始和结束标记token,随机初始化:

  1. Classification,文本分类,加上起始和结束标记Start和Extract即可。
  2. Entailment,文本蕴含关系,本质是多分类,将前提(premise)和假设(hypothesis)拼接,中间加分隔符,首尾加上起始和结束token。
  3. Similarity,文本相似性,处理类似文本蕴含,不过需要构造两个输入,对应正反两种拼接顺序。模型输出相加送入linear+softmax。
  4. Multiple Choice,问答与常识推理,一个任务包括一个正文 z z z,一个问题 q q q ,多个答案{ a k a_k ak} ,对应多个三元组,每个三元组格式为 < z , q , a k > <z,q,a_k> <z,q,ak>。模型输出送入linear获得标量分,然后多个分数经过softmax变为概率分布。

二、GPT-1的创新点

  1. 使用Transformer架构代替了LSTM架构,能够更好处理长距离依赖、提取特征,且能够并行执行
  2. 针对不同的NLP任务提供了变换结构,可以直接在预训练模型基础上针对不同任务进行微调,使得整个过程变成端到端的。

ps:自GPT-1之后,明确了这种两阶段(预训练+微调)的范式:先通过大量未标注文本训练语言模型,然后在具体任务的标注数据上微调。这种范式可以称作半监督学习。


总结

GPT-1为我们提供了一个基于 Transformer 的可以微调的预训练网络。但是在把 BiLSTM 换成 Transformer 的过程中,有信息丢失。ELMo 的语言模型是双向的,可以融合上下文信息,但GPT-1只能向前看,即只能利用上文信息、不能利用下文信息。

相关推荐
艾莉丝努力练剑3 分钟前
【Python基础:语法第一课】Python 基础语法详解:变量、类型、动态特性与运算符实战,构建完整的编程基础认知体系
大数据·人工智能·爬虫·python·pycharm·编辑器
MobotStone22 分钟前
数字沟通之道
人工智能·算法
Together_CZ22 分钟前
Cambrian-S: Towards Spatial Supersensing in Video——迈向视频中的空间超感知
人工智能·机器学习·音视频·spatial·cambrian-s·迈向视频中的空间超感知·supersensing
caiyueloveclamp1 小时前
【功能介绍05】ChatPPT好不好用?如何用?用户操作手册来啦!——【AI辅写+分享篇】
人工智能·powerpoint·ai生成ppt·aippt·免费aippt
Aileen_0v01 小时前
【Gemini3.0的国内use教程】
android·人工智能·算法·开源·mariadb
xiaogutou11211 小时前
5款软件,让歌唱比赛海报设计更简单
人工智能
后端小张2 小时前
智眼法盾:基于Rokid AR眼镜的合同条款智能审查系统开发全解析
人工智能·目标检测·计算机视觉·ai·语言模型·ar·硬件架构
dalalajjl2 小时前
每个Python开发者都应该试试知道创宇AiPy!工作效率提升500%的秘密武器
大数据·人工智能
wheeldown2 小时前
【Rokid+CXR-M】基于Rokid CXR-M SDK的博物馆AR导览系统开发全解析
c++·人工智能·ar
爱看科技2 小时前
AI智能计算竞赛“战火重燃”,谷歌/高通/微美全息构建AI全栈算力开启巅峰角逐新篇
人工智能