人类语言处理nlp部分笔记——三、BERT和它的家族-ELMo,BERT,GPT,XLNet,MASS,BART,UniLM,ELECTRA等

参考自李宏毅课程-人类语言处理

三、BERT和它的家族-ELMo,BERT,GPT,XLNet,MASS,BART,UniLM,ELECTRA等

1. How to pre-train

上一部分是介绍怎么用pre-trained model做一些NLP相关的任务,那么怎样得到这个pre-trained model。

最早的一种pre-train的方法就是利用翻译的任务去train一个encoder和decoder,这个encoder就是我们想要的pre-trained model。用翻译的任务来做是因为翻译的时候需要考虑上下文信息,因此每个token对应的输出也是考虑上下文的,然后用这些输出输入到decoder可以得到正确的翻译说明,这些输出包含了每个token的语义。但是这样做的话,就表示需要去训练这个翻译任务的encoder,需要很多成对的翻译数据,成本非常大。

因此,不需要标注数据的方法进行pre-train,称作self-supervised learning提出,这就是unsupervised learning,LeCun希望人们改口称为self-supervised learning。因为它的本质是用输入的一部分去预测输入的一部分,是自监督的。下图是有监督和自监督的区别:

2. Predict next token

那么怎么做能提取到输入序列的特征,最常见的一种做法是predict next token。输入w1希望模型预测出w2,再输入w2希望模型预测出w3,以此类推。但是设计模型的时候,不要让模型看到答案,否则模型直接copy输入,学不到任何东西。把这个输入 w i w_i wi,输出 h i h_i hi的模型基于LSTM去设计,就是ELMo。如果是基于self-attention去做,就有GPT,Megatron和Turing NLG。这个模型也就是Language model。

那么上面说的预测w2的时候只看了w1,那么为什么不能也看一下w3和w4呢,所以ELMo就用了两个LSTM分别从头开始看和从尾开始看,比如看w1-w4去预测w5,然后看w5-w7去预测w4,最后把这两个的feature去concat得到最终的w4对应的feature。

3. Mask Input

ELMo的两个LSTM是相互独立的,它们之间没有信息的交流。BERT解决了这个问题,BERT只要设计好一个MASK,然后盖住模型要预测的那个token就可以,这样self-attention就可以看到除了答案的所有的部分,这个思路和CBOW是非常像的。

但是,如果只盖住一个token,模型可能无法学到一些long-term的东西,因为只需要依赖于附近几个token猜就行了。所以,有人提出了盖一个词,叫Whole Word Masking。也有人提出对句子做entity recoganition然后盖住entity或者phrase,这个就是ERNIE。

还有一种叫做SpanBert的方法,就是随机去盖一排token,盖住的token的length满足一个分布,这个分布是盖的越长概率越小的分布,SpanBert的训练方法和Bert有所不同,它用了一种叫做Span Boundary Objective的方法,利用被盖住部分两端最接近的两个embedding,然后再输入一个要预测被盖住的第几个token的数字,去预测最终的结果。(这个可能在指代消解中有好的效果?)

然后是一个叫XLNet的模型,它在预测被盖住token的时候,是随机取其他已有的embedding的信息去预测,也需要一个position encoding来告诉它去预测哪个位置的token,这里不知道为什么要这么做,仅仅是介绍。

4. seq2seq的pre-train model

BERT在训练的时候是看整个句子去预测的,因此不太适用于generation的任务。Language model在训练的时候符合句子生成的任务。这种从左往右进行预测叫做autoregressive model,但是今天,我们不一定要让模型从左往右生成文本,如果是non-autoregressive model的话,说不定BERT就适用了。

seq2seq的pre-train model是如下图一样的,输入一串tokens,经过encoder和decoder之后,希望得到同样的一串tokens。如果直接这么做的话太简单,模型学不到什么东西,所以,一般会对input的sequence做一些破坏。

Bart尝试了以下几种破坏方式,第一种是随机给一个token加mask;第二种是删除某些输入;第三种是对tokens做permutation;第四种是对tokens做rotation;第五中是在没有token的地方插入mask,然后盖住某些token,盖住的部分可能有两个token。其中效果最好的是最后的一种。第三和第四种效果最差。这样的结果其实也可以预期到,给模型看大量的打乱顺序的句子,模型就不知道什么是正常的句子了。

还有一种叫做UniLM,既可以像BERT那样训练(双向language model),又可以像GPT那样训练(left-to-right language model),还可以像BART那样训练(seq2seq language model)。

5. ELECTRA

ELECTRA模型用一个更简单的任务去预训练模型,它把输入中的某个token用另一个token替换后,输入模型,让模型去预测各个token有没有被替换过。这样一方面使得任务更为简单,另一方面也可以监督到每一个token的对应输出。

如果随意替换的话,很容易被模型找出来,所以这篇文章的作者用了一个额外的small BERT来生成这个要被替换掉的位置的token,这个small BERT不能太准,也不能太不准,这种做法有点像GAN,但是上下两个模型是各train各的,BERT被设定为要骗过上面的model。

ELECTRA可以用更少的FLOPS(Floating Point Operations Per Second,每秒浮点运算次数。这是衡量计算机性能的一个指标,特别是在科学计算和工程领域。在深度学习和人工智能领域,FLOPs常用来估计神经网络模型在执行过程中所需的计算量。)得到和大模型非常接近的结果。

6. Sentence Embedding

有些时候,我们希望得到的并不是每个token的embedding,而是一个可以表示整个句子的sentence embedding。

训练sentence embedding的模型有两种方法,一种叫做skip Thought,给定一个句子,让模型去预测它的下一句话是什么,这样的生成任务很难,另一种叫做Quick Thought,在encoder分别输入sentence1和sentence2,encoder会分别输出feature1和feature2,如果这两个句子是相邻的,那么我们希望feature1和feature2很相似。(常用于句子相似度计算,语义文本相似性,这两种方法捕捉句子在不同上下文的语义变化,而不仅仅是基于句子本身的内容,因为我们想得到sentence的embedding)

BERT的做法是NSP(Next sentence prediction),就是输入两个句子,在两个句子之间加一个"[SEP]"分隔符,然后用[CLS]这个token的输出来预测这两个句子是相邻的,还是不是相邻的。

NSP这种做法的实际效果并不好,于是就有人提出了SOP(Sentence order preditcion)。就是让两个句子来自于同一篇文章,如果这两个相邻的句子反过来,那么它输出No,只有在相邻且顺序对的情况才输出Yes。还有人提出了structBERT,结合了NSP和SOP。最后说了T5(Text-to-Text Transfer Transformer),由谷歌研究人员在2019年提出,它是一个预训练的Transformer模型,专门设计用于文本转换任务,如文本摘要、问题回答、翻译、文本生成等。

相关推荐
Power202466621 分钟前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
红客5971 小时前
Transformer和BERT的区别
深度学习·bert·transformer
多吃轻食1 小时前
大模型微调技术 --> 脉络
人工智能·深度学习·神经网络·自然语言处理·embedding
charles_vaez2 小时前
开源模型应用落地-glm模型小试-glm-4-9b-chat-快速体验(一)
深度学习·语言模型·自然语言处理
黑叶白树2 小时前
简单的签到程序 python笔记
笔记·python
知来者逆2 小时前
研究大语言模型在心理保健智能顾问的有效性和挑战
人工智能·神经网络·机器学习·语言模型·自然语言处理
Shy9604182 小时前
Bert完形填空
python·深度学习·bert
幸运超级加倍~2 小时前
软件设计师-上午题-15 计算机网络(5分)
笔记·计算机网络
芊寻(嵌入式)4 小时前
C转C++学习笔记--基础知识摘录总结
开发语言·c++·笔记·学习
准橙考典4 小时前
怎么能更好的通过驾考呢?
人工智能·笔记·自动驾驶·汽车·学习方法