GPT与BERT模型

NLP任务的核心逻辑是"猜概率"的游戏。BERT和GPT都是基于预训练语言模型的思想,通过大量语料训练得到语言模型。两种模型都是基于Transformer模型。

Bert 类似于Transformer的Encoder部分,GPT类似于Transformer的Decoder部分。两者最明显的在结构上的差异为Multi-Head-Attention和Masked Multi-Head-Attention。

  • BERT:双向 预训练语言模型+fine-tuning(微调)

BERT是基于Transformer网络架构和预训练语言模型提出的。在不同语言任务上达到最先进的水平,展示了预训练语言模型对于自然语言理解任务的巨大潜力。

BERT属于AE模型(自编码),不会进行精确估计,但可 从mask的输入中重建原始数据的能力,AE模型通常用于内容理解任务,利用双向上下文信息,对原始输入进行重建。缩小了双向信息 gap,提高模型性能。BERT在预训练期间使用的[MASK]符号,在微调阶段的真实数据中并不存在,这会导致预训练-微调的差异。由于预测的token在输入中被mask,导致BERT无法像AR模型那样使用乘积方式对联合概率进行建模。在BERT假设中,给定unmask的token时,待预测的token彼此之间相互独立,这个假设过于简单化了,在自然语言中,high-order和long-range依赖是非常普遍的。

BERT分为预训练和微调两部分,预训练是BERT模型的基础部分,使用大量的文本来训练语言模型。预训练时BERT模型会学习语言知识,如词汇、语法、句子结构等,预训练是为了让BERT模型有足够的语言能力处理不同的自然语言任务;微调过程是在预训练模型的基础上,使用少量标注数据调整模型参数。

BERT更适用于自然语言理解任务:

问答系统:在问答系统中用来理解问题并生成答案。

句子相似度比较:比较两个句子之间的相似程度。

文本分类:对文本进行分类。

情感分析:对文本进行情感分析。

命名实体识别:识别文本中的命名实体。

Bert 使用填空的方式完成预训练,随机盖住一些输入的文字,被mask的部分是随机决定的。

第一种方法,用一个特殊的符号替换句子中的一个词, MASK 标记来表示特殊符号,作为一个新字,这个字完全是一个新词,它不在字典里,代表mask了原文。另外一种方法是随机把某一个字换成另一个字。两种方法方法随机使用,BERT 训练时,向BERT输入一个句子,先随机决定哪一部分的汉字被mask,mask后输入一个序列,把BERT的相应输出看作是另一个序列,在输入序列中寻找mask部分的相应输出,这个向量通过一个Linear transform,输入向量将与一个矩阵相乘,在做softmax,输出一个分布,一个很长的向量,包含要处理的每个汉字,每个字对应一个分数。mask的字符类似标签,用one-hot vector 表示这个字符,使输出和one-hot vector之间的交叉熵损失最小。BERT 是预测被MASK的内容,在训练中,在BERT后添加一个线性模型一起训练,预测被MNASK的字符。

  • GPT:自回归 预训练语言模型+Prompting(指示/提示)

起源于对传统预训练语言模型(ELMO\ULMFit)的改进和升级,采用Transformer架构,使用预训练+微调的方式实现语言理解和生成。GPT预训练数据来源于网络文本数据。模型学习了基本的语言知识和结构,再在特定任务上微调,模型根据特定任务的需要来学习相关的知识。

GPT是AR模型(自回归),从左往右学习的模型。AR模型从time steps中学习,将上一步结果作为回归模型的输入,预测下一个time step的值。AR模型通常用于生成式任务,在长文本的生成能力很强,比如自然语言生成(NLG)领域的任务:摘要、翻译或抽象问答。

AR模型学习 time steps 的内在联系,预测下一个time step的值。如果两个变量朝着同一方向变化,比如同时增加或减少,则是正相关的;若变量朝着相反的方向变化,比如一个增加另一个减少,则是负相关的。这种相关性(正相关 or 负相关)越高,过去预测未来的可能性就越大;在深度学习训练过程中,对应的模型权重也就越高。这种相关性是在过去time steps中,变量与其自身之间的相关性,故称为自相关性,如果每个变量与输出变量几乎没有相关性,则无法预测。

AR语言模型的优缺点:

  • 优点:AR模型擅长生成式NLP任务。AR模型使用注意力机制,预测下一个token,适用于文本生成。AR模型将训练目标设置为预测语料库中的下一个token,因此生成数据相对容易。
  • 缺点:AR模型只能用于前向或者后向建模,不能同时使用双向的上下文信息,不能完全捕捉token的内在联系。

GPT主要具体应用:文本生成、文本自动完成、语言翻译、对话生成、摘要生成

GPT 的任务是预测后面的序列,相同大小数据集时Bert 会更好,如果预训练数据很大,GPT网络训练是不需要标注的,适于超大数据量的情况的特点。

GPT与BERT训练的不同:

  • GPT使用的是Transformer模型;BERT使用的是双向Transformer模型。
  • GPT的预训练使用大量的网络文本数据;BERT的预训练使用Wikipedia和BooksCorpus。
  • GPT预训练采用语言模型的方法,通过预测下一个词来学习语言模型;BERT预训练过程中采用了双向预测的方法,即通过预测句子中丢失的词来学习语言模型。
  • GPT微调时,需要指定输入输出的语言模型任务;BERT微调时可应用在多种任务上。

参考:

关于ChatGPT:GPT和BERT的差别(易懂版) - 知乎

一文读懂GPT家族和BERT的底层区别------自回归和自编码语言模型详解 - 知乎

相关推荐
学术搬运工1 小时前
【珠海科技学院主办,暨南大学协办 | IEEE出版 | EI检索稳定 】2024年健康大数据与智能医疗国际会议(ICHIH 2024)
大数据·图像处理·人工智能·科技·机器学习·自然语言处理
SEVEN-YEARS3 小时前
BERT配置详解1:构建强大的自然语言处理模型
人工智能·自然语言处理·bert
正在走向自律8 小时前
AI写作(二)NLP:开启自然语言处理的奇妙之旅(2/10)
人工智能·自然语言处理·ai写作
m0_5236742113 小时前
技术前沿:从强化学习到Prompt Engineering,业务流程管理的创新之路
人工智能·深度学习·目标检测·机器学习·语言模型·自然语言处理·数据挖掘
小言从不摸鱼15 小时前
【AI大模型】ELMo模型介绍:深度理解语言模型的嵌入艺术
人工智能·深度学习·语言模型·自然语言处理·transformer
小森( ﹡ˆoˆ﹡ )1 天前
词嵌入方法(Word Embedding)
人工智能·机器学习·自然语言处理·nlp·word·embedding
魅色1 天前
法语文档的几种翻译方法
人工智能·自然语言处理·机器翻译·外文阅读·在线翻译
OpenBayes1 天前
OpenBayes 一周速览丨VASP 教程上线!HPC 助力材料计算;AllClear 公共云层去除数据集发布,含超 23k 个全球分布的兴趣区域
人工智能·深度学习·机器学习·自然语言处理·开源·数据集·大语言模型
少喝冰美式1 天前
大语言模型在序列推荐中的应用
人工智能·程序人生·自然语言处理·大模型·大语言模型·计算机技术·大模型应用
DisonTangor1 天前
AMD-OLMo:在 AMD Instinct MI250 GPU 上训练的新一代大型语言模型。
人工智能·语言模型·自然语言处理