- BERT(bidirectional encoder representations from transformer)是谷歌公司发明的,基于自注意力机制的nlp模型。有预训练好的模型,并且开源的供所有人去做调优。是2018年的时候最优秀的nlp模型。
训练方式:自编码(Autoencoding)
预测目标:给定上下文,预测其中的一个或多个缺失单词
输入处理:双向,可以同时考虑一个词的左右上下文
适用场景:适合理解上下文,有助于信息提取、问答系统、情感分析等
架构:基于Transformer的编码器
语言模型:判别式(Discriminative)
优点:对上下文理解能力较强
缺点:生成的文本连贯性较弱
GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT
- GPT(Generative Pretrained Transformer)
训练方式:自回归(Autoregressive)
预测目标:在给定前面的单词时,预测下一个单词
输入处理:单向(从左往右或者从右往左)
适用场景:适合生成式任务,如文章生成、诗歌创作等
架构:基于Transformer的解码器
语言模型:生成式(Generative)
优点:预测的连贯性较强
缺点:对上下文理解能力相对较弱
-
T5
-
Bart
可以去仔细阅读的文章如下:(待读)
-
Attention is all you need
-
BERT:Pre-training of Deep Bidirectional Transformer for language understanding
-
GPT体验