3 种自然语言处理(NLP)技术：RNN、Transformers、BERT

自然语言处理 (NLP) 是人工智能的一个领域，旨在使机器能够理解文本数据。NLP 研究由来已久，但直到最近，随着大数据和更高计算处理能力的引入，它才变得更加突出。

随着 NLP 领域的规模越来越大，许多研究人员都试图提高机器理解文本数据的能力。经过大量的进步，许多技术在 NLP 领域被提出并应用。

本文将比较 NLP 领域中处理文本数据的各种技术。本文将重点讨论 RNN、Transformers 和 BERT，因为它们是研究中经常使用的技术。让我们开始吧。

< NLP - RNN、Tranformers、BERT>

循环神经网络

循环神经网络(RNN) 于 1980 年开发，但最近才在 NLP 领域引起关注。RNN 是神经网络家族中的一种特殊类型，用于处理顺序数据或不能相互独立的数据。顺序数据示例包括时间序列、音频或文本句子数据，基本上是任何具有有意义顺序的数据。

RNN 与常规前馈神经网络不同，因为它们处理信息的方式不同。在常规前馈神经网络中，信息是在层之后处理的。然而，RNN 使用循环周期来处理信息输入。为了理解差异，让我们看下面的图片。

如您所见，RNN 模型在信息处理过程中实现了循环。RNN 在处理此信息时会考虑当前和以前的数据输入。这就是为什么该模型适用于任何类型的顺序数据。

如果我们以文本数据为例，假设我们有句子"我早上 7 点起床"，并且我们将单词作为输入。在前馈神经网络中，当我们到达单词"起床"时，模型已经忘记了单词"我"、"起床"和"起床"。但是，RNN 会使用每个单词的每个输出并将它们循环回来，这样模型就不会忘记。

在 NLP 领域，RNN 经常用于许多文本应用，例如文本分类和生成。它经常用于词级应用，例如词性标注、下一个词生成等。

深入研究文本数据上的 RNN，RNN 有很多种类型。例如，下图是多对多类型。

看上图，我们可以看到每个步骤（RNN 中的时间步）的输出都是一步一步处理的，并且每次迭代总是考虑先前的信息。

另一种在许多 NLP 应用中使用的 RNN 类型是编码器-解码器类型（Sequence-to-Sequence）。其结构如下图所示。

此结构引入了模型中使用的两个部分。第一部分称为编码器，它接收数据序列并基于该序列创建新的表示。该表示将用于模型的第二部分，即解码器。使用此结构，输入和输出长度不一定相等。示例用例是语言翻译，其输入和输出之间的长度通常不相同。

使用 RNN 处理自然语言数据有各种好处，包括：

RNN 可用于处理不受长度限制的文本输入。
该模型在所有时间步骤中共享相同的权重，这使得神经网络在每个步骤中使用相同的参数。
由于具有过去输入的记忆，RNN 适用于任何序列数据。

但是，它也存在一些缺点：

RNN 容易受到梯度消失和梯度爆炸的影响。梯度消失是指梯度结果接近于零（消失），导致网络权重仅更新很小的量，或者梯度结果非常显著（爆炸），以至于赋予网络不切实际的巨大重要性。
由于模型的序列特性，训练时间较长。
短期记忆意味着模型训练的时间越长，就会开始忘记。RNN 有一个扩展，称为LSTM，可以缓解这个问题。

Transformers

Transformers 是一种 NLP 模型架构，旨在解决 RNN 中以前遇到的序列到序列任务。如上所述，RNN 在短期记忆方面存在问题。输入越长，模型在遗忘信息方面就越突出。这就是注意力机制可以帮助解决问题的地方。

Bahdanau等人(2014)在论文中引入了注意力机制，用于解决长输入问题，尤其是编码器-解码器类型的 RNN。我不会详细解释注意力机制。基本上，它是一个层，允许模型在进行输出预测的同时专注于模型输入的关键部分。例如，如果任务是翻译，那么输入单词"Clock"将与印尼语中的"Jam"高度相关。

transformers 模型由Vaswani等人(2017)提出。该架构受到编码器-解码器 RNN 的启发，并考虑到注意力机制而构建，并且不按顺序处理数据。整个 transformers 模型的结构如下图所示。

Transformers 架构（Vaswani等人，2017 年）

在上述结构中，Transformers 使用位置编码将数据向量序列编码为词向量，同时使用解码将数据转换为原始形式。在注意力机制的帮助下，编码可以根据输入赋予重要性。

与其他模型相比，Transformer 具有一些优势，包括：

并行化过程增加了训练和推理速度。
能够处理更长的输入，从而更好地理解上下文

Transformers 模型仍然存在一些缺点：

高计算处理和需求。
注意力机制可能需要对文本进行拆分，因为它可以处理的长度有限制。
如果分割错误，上下文可能会丢失。

BERT

BERT，即 Transformers 的双向编码器表示，是由Devlin等人(2019)开发的模型，涉及两个步骤（预训练和微调）来创建模型。如果我们比较一下，BERT 是 Transformers 编码器的堆栈（BERT Base 有 12 层，而 BERT Large 有 24 层）。

BERT的整体模型发展如下图所示。

BERT 总体流程（Devlin等人（2019）

预训练任务同时启动模型的训练，完成后，模型可以针对各种下游任务（问答、分类等）进行微调。

BERT 的特别之处在于它是第一个在文本数据上进行预训练的无监督双向语言模型。BERT 之前已在整个维基百科和书籍语料库上进行过预训练，包含超过 30 亿个单词。

BERT 被认为是双向的，因为它不是按顺序读取数据输入（从左到右或反之亦然），但 Transformer 编码器同时读取整个序列。

与按顺序（从左到右或从右到左）读取文本输入的定向模型不同，Transformer 编码器会同时读取整个单词序列。这就是为什么该模型被认为是双向的，并允许模型理解输入数据的整体上下文。

为了实现双向，BERT 使用了两种技术：

掩码语言模型 (MLM) --- 单词掩码技术。该技术将掩码 15% 的输入词，并尝试根据未掩码的单词预测这个被掩码的单词。
下一句预测 (NSP) --- BERT 尝试学习句子之间的关系。该模型以句子对作为数据输入，并尝试预测后续句子是否存在于原始文档中。

在 NLP 领域使用 BERT 有几个优点，包括：

BERT易于用于预先训练的各种NLP下游任务。
双向使得 BERT 更好地理解文本上下文。
这是一个很受欢迎的模式，得到了社区的大力支持

尽管如此，它仍然存在一些缺点，包括：

一些下游任务微调需要很高的计算能力和很长的训练时间。
BERT 模型可能会导致模型很大，需要更大的存储空间。
它更适合用于复杂任务，因为简单任务的性能与使用更简单的模型没有太大差别。

结论

NLP 近来变得越来越突出，许多研究都集中在改进应用程序上。在本文中，我们讨论了三种经常使用的 NLP 技术：

循环神经网络 (RNN)
Transformers
BERT

每种技术都有其优点和缺点，但总的来说，我们可以看到模型正在以更好的方式发展。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。