【自然语言处理】（1） --语言转换方法

文章目录

语言转换方法
- 一、统计语言模型
- - [1. 词向量转换](#1. 词向量转换)
  - [2. 统计模型问题](#2. 统计模型问题)
- 二、神经语言模型
- - [1. 词向量化](#1. 词向量化)
  - [2. 维度灾难](#2. 维度灾难)
  - [3. 解决维度灾难](#3. 解决维度灾难)
  - [4. embedding词嵌入](#4. embedding词嵌入)
  - [5. Word2Vec技术](#5. Word2Vec技术)
  - - [5.1 连续词袋模型（CBOW）](#5.1 连续词袋模型（CBOW）)
    - [5.2 跳字模型（Skip-gram）](#5.2 跳字模型（Skip-gram）)
总结

语言转换方法

在自然语言处理中，语言转换方法由两个模型：

统计语言模型
神经语言模型

一、统计语言模型

在自然语言处理（NLP, Natural Language Processing）中，统计语言模型 （Statistical Language Model, SM）是一种基于统计学的方法，用于描述和预测自然语言文本中的词汇或句子出现的概率。这种方法通过分析大量文本数据，学习词汇和句子的概率分布，从而能够预测给定上下文的下一个词或子词。

1. 词向量转换

具体体现在机器学习中的词向量转换方法：

python 复制代码

from sklearn.feature_extraction.text import CountVectorizer

texts = ['dog cat fish','dog cat cat','fish bird','bird']
cont = []
cv = CountVectorizer(ngram_range=(1,3)) # 表示文本中连续出现的n个词，有哪些连续组合。
cv_fit = cv.fit_transform(texts) # 表示每个字符串中，是否有cv中的词，有标记为1，反之为。

print(cv.get_feature_names_out())
print(cv_fit.toarray()) #参数

输出结果：

python 复制代码

['bird' 'cat' 'cat cat' 'cat fish' 'dog' 'dog cat' 'dog cat cat'
 'dog cat fish' 'fish' 'fish bird']
[[0 1 0 1 1 1 0 1 1 0]
 [0 2 1 0 1 1 1 0 0 0]
 [1 0 0 0 0 0 0 0 1 1]
 [1 0 0 0 0 0 0 0 0 0]]

接着将词向量传进贝叶斯模型，计算概率，用以预测给定上下文的下一个词或子词。

2. 统计模型问题

由于参数空间的爆炸式增长，它无法处理【N（ngram_range）>3】的数据:

以上方的词向量转换方法为例，我们发现，若是我们的文本数量很多时，同时连续词的组合没有上限时，它的参数空间会很大很大，模型没有能力再处理了。

没有考虑词与词之间内在的联系性。

例如，考虑"the cat is walking in the bedroom"这句话。如果我们在训练语料中看到了很多类似"the dog is walking in the bedroom"或是"the cat is running in the bedroom"这样的句子；那么，哪怕我们此前没有见过这句话"the cat is walking in the bedroom"，也可以从"cat"和"dog"（"walking"和"running"）之间的相似性，推测出这句话的概率。

于是为了解决这些问题，我们提出了神经语言模型。

二、神经语言模型

1. 词向量化

在处理自然语言时，通常将词语或者字做向量化，例如one-hot编码，例如我们有一句话为："我爱北京天安门"，我们分词后对其进行one-hot编码，结果可以是：

2. 维度灾难

如果需要对语料库中的每个字进行one-hot编码如何实现？

统计语料库中所有的词的个数，例如4960个词。
按顺序依次给每个词进行one-hot编码，例如第1个词为： $0,0,0,0,0,0,0,....,1$ ，最后1个词为： $1,0,0,0,0,0,0,....,0$

这时，假使还是有句话"我爱北京天安门"，他们的编码就会变成：

如此编码的话，它的编码维度会非常的高，矩阵为非常稀疏，出现维度灾难。训练时维度堆积，随着维度的增加，计算复杂度也显著增加。

维度灾难（Curse of Dimensionality）是一个在数据分析、机器学习和统计学中广泛讨论的概念。它描述的是当数据集的维度（即特征或变量的数量）增加时，数据分析和模型的复杂性急剧上升，导致一系列问题和挑战。

3. 解决维度灾难

通过神经网络训练，将每个词都映射到一个较短的词向量上来。将高维映射到低维。

比如一个西瓜，它包含的特征有：可以吃的、圆的、绿色的、红色果肉等等；

再比如一个篮球，他办函的特征有：不能吃、圆的、褐色的、运动等等；

我们将它们的特征（假设300个），300个特征是可以能够描述出一个物体的，都放进神经网络训练，经过归一化的处理，维度中的数字就变成浮点数了。我们用这些浮点数来代表该物体，将维度变为300。

具体再比如之前的"我爱北京天安门"，放进神经网络模型训练后数据为：

与之前的维度对比，从4960到300，大大减小了特征维度，从而解决唯独灾难问题。

4. embedding词嵌入

Embedding（嵌入）是一种将高维空间 中的对象（如单词、短语、句子等）映射到低维、稠密、连续的向量空间中的技术。在NLP中，Word Embedding（词嵌入）是最常见的嵌入类型，它将词汇表中的每个单词映射到一个固定大小的向量。

词嵌入通过训练神经网络模型（如Word2Vec、GloVe、FastText等）在大量文本数据上学习得到每个单词的向量表示。这些向量能够捕捉单词之间的语义关系，使得在向量空间中相似的单词（如"猫"和"狗"）具有相近的表示，而不相关的单词则具有较远的距离。

tText等）在大量文本数据上学习得到每个单词的向量表示。这些向量能够捕捉单词之间的语义关系，使得在向量空间中相似的单词（如"猫"和"狗"）具有相近的表示，而不相关的单词则具有较远的距离。

5. Word2Vec技术

Word2Vec 是一种用于自然语言处理（NLP）的技术，特别是在将词汇或短语从词汇表映射到向量的实数空间 方面表现出色。这种映射使得相似的词在向量空间中具有较近的距离，从而捕捉到了词汇之间的语义和句法关系 。Word2Vec技术是由Google的研究人员Tomas Mikolov等人在2013年提出的，它主要包括两种训练模型：连续词袋模型（CBOW）和跳字模型（Skip-gram）。

5.1 连续词袋模型（CBOW）

模型结构：

模型训练过程：

当前词的上下文词语的one-hot编码输入到输入层。
这些词分别乘以同一个矩阵WVN后分别得到各自的1N 向量。
将多个这些1 * N 向量取平均为一个1 * N 向量。
将这个1 * N 向量乘矩阵 W'V * N ,变成一个1 * V 向量。
将1 * V 向量softmax归一化后输出取每个词的概率向量1 * V。
将概率值最大的数对应的词作为预测词。
将预测的结果1 * V 向量和真实标签1 * V 向量（真实标签中的V个值中有一个是1，其他是0）计算误差。
在每次前向传播之后反向传播误差，不断调整 WV * N和 W'V * N矩阵的值。

那么，低维度的词是在哪里体现的呢？

假定语料库中一共有4960个词，则词编码为4960个01组合现在压缩为300维：

如此，便将它特征压缩了，从而将词汇或短语从词汇表映射到向量的实数空间。

5.2 跳字模型（Skip-gram）

Skip-gram模型的核心思想是从一个给定的中心单词出发，预测它周围的上下文单词。

模型结构：

训练过程：

数据预处理：将原始文本转换为序列数据，其中每个词用其对应的整数索引代替。
生成训练样本：通过滑动窗口在文本数据上滑动，每次滑动都会生成一个训练样本，包括一个中心词和一系列上下文单词。假设给定一个窗口大小为k，对于每个中心词，可以将其前后各k个词作为上下文。
前向传播：在每次训练中，Skip-gram模型计算中心词的词向量与隐藏层权重的乘积，得到隐藏层的输出。然后，将隐藏层的输出与输出层的权重矩阵相乘，再通过softmax函数，得到与上下文词对应的概率分布，即预测结果。
损失函数与优化：模型的优化目标是最大化预测结果的概率。训练过程中，Skip-gram模型通过反向传播和梯度下降算法来更新词向量和神经网络的参数。在每次迭代更新中，通过最小化损失函数来优化模型的参数。常用的损失函数包括交叉熵（cross-entropy）和负对数似然（negative log-likelihood）。这些损失函数用于比较预测结果与实际输出之间的差异，将差异通过梯度下降反向传播到网络的所有层，以优化各个参数。

应用：

Skip-gram模型生成的词向量在自然语言处理任务中有着广泛的应用，如词义相似度计算 、情感分析 、文本分类 、命名实体识别等。通过将单词表示为连续的向量空间中的点，Skip-gram模型为这些任务提供了一个更加有效和灵活的输入表示方式。

总结

本篇介绍了自然语言处理中，语言转换方法的两个模型：

统计语言模型：用于描述和预测自然语言文本中的词汇或句子出现的概率，但是没办法考虑词与词之间内在的联系 且参数空间会出现爆炸式增长的问题。
神经语言模型：通过神经网络训练 ，将每个词都映射到一个较短的词向量上来。将高维映射到低维 。通过embedding词嵌入技术捕捉词句之间的语义。
embedding词嵌入技术，有两个模型连续词袋模型（CBOW）和跳字模型（Skip-gram） ，用来捕捉到了词汇之间的语义和句法关系。