1.摘要（Abstract）

与别的文章的区别是什么:BERT是用来设计去训练深的双向的表示，使用没有标号的数据，再联合左右的上下文信息。(改进在什么地方)

效果有多好:在11个NLP任务上取得了很好的效果。需要讲清绝对精读以及相对精读。(结果好在哪)

2.引言（Introduction）：

语言模型的简单介绍:1.建模这些句子之间的关系 2.实体命名的识别

摘要第一段的扩充:用预训练模型做特征表示的时候，使用的两种策略:基于特征与基于微调

主要想法:

如何解决所遇到的问题: BERT是用来减轻之前提到过的语言模型，选用一种带掩码的语言模型(masked language model )

贡献点：双向信息的重要性（句子从左看到右，从右看到左）、在BERT上做微调效果很好、代码开源

3.结论（Conlusion）：

无监督的预训练很重要（在计算机视觉领域，在没有标签的数据集上做训练比在有标签的数据集上做训练效果会更好）；主要贡献是将这些发现进一步推广到深度双向架构，使相同的预训练模型能够成功处理一系列的 NLP 任务。

4.BERT模型算法:

BERT中的两个步骤:

预训练:在预训练里面，BERT模型是在一个没有标号的数据上进行训练的

微调:在微调时同样适用一个BERT模型，在它的权重就是被初始化成我们在预训练中间得到的那个权重，所有的权重在微调时都会被参与训练(用的是有标号的数据)。

预训练与微调之间不一样的部分:

预训练中两个关键的东西:目标函数与做预训练的数据

BERT的架构:

就是一个多层的transformer的编码器

5.总结

在本篇论文的结论中最大贡献是双向性 （在写一篇论文的时候，最好有一个卖点，而不是这里好那里也好）。

选了选双向性带来的不好是什么？做一个选择会得到一些，也会失去一些。

缺点是：与GPT（Improving Language Understanding by Generative Pre-Training）比，BERT用的是编码器，GPT用的是解码器。BERT做机器翻译、文本的摘要（生成类的任务）不好做。

但分类问题在NLP中更常见。

完整解决问题的思路：在一个很大的数据集上训练好一个很宽很深的模型，可以用在很多小的问题上，通过微调来全面提升小数据的性能（在计算机视觉领域用了很多年），模型越大，效果越好（很简单很暴力）。

论文精读之BERT

1.摘要（Abstract）

2.引言（Introduction）：

3.结论（Conlusion）：

4.BERT模型算法:

5.总结