NLP 之词的表示与语言模型

表示的基本原理：

机器无法理解文字，却能进行复杂的数学运算------神经网络只要够深、够复杂，就能拟合足够复杂的数学模式。把文字嵌入（embed）到一个向量空间中去。

词表示（Word Representation）分为4代

基本原理：

假设中文字典有n个词元，那么第i（i=1,2,3,...,n）个词元的编码为一个长度为n的向量，它的第i位为1，其他为0。独热编码实现了对文本的向量化嵌入。

问题：

第一，向量的维度太长了，文本的表示过于稀疏；

第二，词向量与词向量之间完全正交，不具有相关性。

2.词频-逆文档词频（Term Frequency-Inverse Term Frequency, TF-IDF）

根据Zipf's Law，在给定的自然语言语料库中，任何一个词的频率与它在频率表中的排名成反比。

它对每一个词生成一个相同的词表示，不考虑同一个词在不同语境下含义的差别。

连续词袋法：

用一个浅层神经网络，依次遮住句子中的每一个词，然后用它的上下文来预测它

跳元法：

我们用一个k元词组来预测它的上下文

自监督预训练:

通过"破坏"句子的一部分，让模型预测它，从而实现对词的更精确的表示.

语言的多义性是人类自然语言的重要特点。

BERT考虑了三层嵌入：词嵌入、位置嵌入（词在句子中的位置）和句子嵌入，并把它们加起来作为最后的嵌入表示。

BERT使用WordPiece分词器（tokenizer），借鉴了自监督训练的思想，在两个任务上进行预训练：下句预测（Next Sentence Prediction）和掩码语言建模（Masked Language Modeling）。

下句预测是一个二分类任务：给定一个句子，判定另一个句子是否是它的下一句；

掩码语言建模任务随机掩盖其中15%的单词，并训练模型来预测被掩盖的单词，为了预测被掩盖的单词，模型从两个方向阅读该句并进行预测。