预训练语言模型（笔记）

笔记来源： Transformer、GPT、BERT，预训练语言模型的前世今生（目录） - B站-水论文的程序猿 - 博客园

预训练语言模型的发展并不是一蹴而就的，而是伴随着诸如词嵌入、序列到序列模型及 Attention 的发展而产生的。

一、从图像领域引入预训练思想

假设我们现在有一个任务：阿猫、阿狗、阿虎的图片各十张，然后让我们设计一个深度神经网络，通过该网络把它们三者的图片进行分类。

然而用30张图片设计一个深度神经网络基本是不可能的，因为深度学习一个弱项就是在训练阶段对于数据量的需求特别大。 但是我们可以利用网上现有的大量已做好分类标注的图片 。比如 ImageNet 中有 1400 万张图片，并且这些图片都已经做好了分类标注。

上述利用网络上现有图片的思想就是预训练的思想，具体做法就是：

通过 ImageNet 数据集我们训练出一个模型A
我们可以对模型 A 做出一部分改进得到模型 B（两种方法）：
1. 冻结：浅层参数使用模型 A 的参数，高层参数随机初始化，浅层参数一直不变，然后利用 30 张图片训练参数
2. 微调：浅层参数使用模型 A 的参数，高层参数随机初始化，然后利用30 张图片训练参数，但是在这里浅层参数会随着任务的训练不断发生变化

对于一个具有少量数据的任务 A，我们可以先利用现有的大量数据搭建一个模型 A，再搭建一个模型B，模型B利用模型A的参数初始化后再用任务A的少量数据训练。模型B就是对应任务A的模型。

语言模型通俗点讲就是**计算一个句子的概率。**也就是说，对于语言序列 𝑤1,𝑤2,⋯,𝑤𝑛，语言模型就是计算该序列的概率，即 𝑃(𝑤1,𝑤2,⋯,𝑤𝑛)。

下面通过两个实例具体了解上述所描述的意思：

假设给定两句话 "判断这个词的磁性" 和 "判断这个词的词性"，语言模型会认为后者更自然。转化成数学语言也就是：𝑃(判断，这个，词，的，词性)>𝑃(判断，这个，词，的，磁性)
假设给定一句话做填空 "判断这个词的____"，则问题就变成了给定前面的词，找出后面的一个词是什么，转化成数学语言就是：𝑃(词性|判断，这个，词，的)>𝑃(磁性|判断，这个，词，的)

通过上述两个实例，可以给出语言模型更加具体的描述：

1.给定一句由 𝑛 个词组成的句子 𝑊=𝑤1,𝑤2,⋯,𝑤𝑛，计算这个句子的概率 𝑃(𝑤1,𝑤2,⋯,𝑤𝑛)

2.计算根据上文计算下一个词的概率 𝑃(𝑤𝑛|𝑤1,𝑤2,⋯,𝑤𝑛−1)。

语言模型有两个分支，分别是统计语言模型和神经网络语言模型。

1.计算句子概率的公式：P(w1,w2,⋯,wn)=P(w1)P(w2|w1)P(w3|w1,w2)⋯p(wn|w1,w2,⋯,wn−1)=∏iP(wi|w1,w2,⋯,wi−1)

2.对于第二个问题可以用二元语言模型计算更简便。

二元语言模型的使用举例：

神经网络语言模型则引入神经网络架构来估计单词的分布，并且通过词向量的距离衡量单词之间的相似度，因此，对于未登录单词，也可以通过相似词进行估计，进而避免出现数据稀疏问题。