BERT_

在BERT之前没有一个好的深度网络使得训练好之后能够帮助一大片的NLP任务

pre-training预训练

？BERT是芝麻街里面另外一个主人公的名字

摘要

BERT使用了左侧和右侧的信息预测未来（双向）

引入

NLP之前没有预训练的，BERT后就有了。

两种预训练：基于特征的，微调

将学到的特征和输入一一起放进去，作为一个很好的特征的表达。

标准的语言模型是单向的。但如果要对句子做一些分析，比如说情绪分析，从左到右和从右到左都是一样的，同理还有QA。

如果把两个方向的信息都放出来后，应该能够提升性能。

带掩膜的模型，等价于给句子挖一些空填，相当于完形填空。还训练了下一个句子的预测，随机采样两个句子判断他们是否相邻。

三点贡献：

证明了双向预训练语言表征的重要性
BERT是第一个基于微调的模型，效果好

模型

下游任务会根据具体内容微调，初始化用预训练的模型

多层双向transformer编码器

模型的可学习参数来源有二：一是嵌入层（输入字典的大小，输出是隐藏单元H，头的个数A64=H），二是transformer块

自注意力块的总可学习参数为H^2 4

后面跟一个全连接层，总学习参数为H^2 8
一共L个transformer块，12L*H^2(transformer块) + 30k H(嵌入向量)

输入/输出表征：

输入是一段序列，可以一个句子也可以两个句子。

切词使用WordPiece（如果一个词出现频率低且较长，看能否把他切成高频的子序列，只保留该子序列）

每个序列的句首token为[CLS]。用特别的token[SEP]分开不同的句子，加一个可学习的嵌入层。

embedding的构成：tokenembed + segmentembed(属于哪个句子)+positionembed（位置）都是可学习的

随机将15%的词元替换成特殊的掩码token[mask]。还要细分，内部的80%真的是mask，10%替换成随机词语，10%替换成目标。（加噪音）

Task

预测下一个句子

50%概率B真的在A之后，50%B随机选取句子（有正例和反例）

BERT识别句子之间的关系？

实验

GLUE：句子分类数据集。CLS对应的输出向量，多加一个MLP+softmax层作为多分类问题

SQuad：QA数据集，学习两个概率S，E分别对应是答案开始和答案最后的概率

总结

主要工作把前人的结果拓展到深的双向的架构上面，使得同样的预训练模型能够成功处理大量得那不一样的自然语言的任务

具体来说不是把语言模型变成预测未来，而是变成完形填空

评价

选择双向性有些不好，失去了可解释性，在机器翻译任务上效果不太好

启示

有意思，BERT跟gpt和elmo的区别是什么

讲你的模型好时候，需要列出你的绝对精度和相对别人提升的精度，哪些任务好

论文需要自洽，后面人过来读可能不知道你的概念，但这是你的方法不可或缺的一部分

摘要

引入

相关工作

模型

Task

实验

总结

评价

启示