AI大事记12:Transformer 架构——重塑 NLP 的革命性技术（上）

1 传统架构的困境与 Transformer 的诞生

1.1 循环神经网络的技术瓶颈

在 Transformer 架构出现之前，自然语言处理（NLP）领域长期被循环神经网络（RNN）及其变体所主导。RNN 因其循环结构能够天然地处理序列数据，在 NLP 任务中展现出独特优势。然而，随着研究的深入，RNN 的技术瓶颈逐渐显现，其中最突出的是长距离依赖问题 和梯度消失 / 爆炸问题。

RNN 在处理长序列时面临的根本挑战在于其循环结构导致的信息传递困难。当序列长度增加时，早期时间步的信息在传递过程中会严重衰减。正如研究者指出，"RNN 在处理长序列时，容易出现梯度消失或梯度爆炸的问题。这种现象使得模型难以捕捉序列中的长距离依赖关系"具体而言，在理解 "十年前投资比特币的人现在暴富了" 这样的长句子时，RNN 很难将 "十年前" 与 "现在" 这两个时间点关联起来，导致语义理解错误。

另一个严重问题是 RNN 的串行计算特性。由于 RNN 必须按顺序处理序列数据，前一时间步的计算结果完全依赖于上一时间步的隐状态，这使得模型无法进行并行计算。这种串行特性严重限制了 GPU 等现代硬件的利用率，特别是在处理长文本时，训练速度会急剧下降。据研究显示，传统 RNN/LSTM"因循环计算导致难以并行化，且存在长距离依赖问题"。

1.2 卷积神经网络在 NLP 领域的局限性

虽然卷积神经网络（CNN）在计算机视觉领域取得了巨大成功，但在处理序列数据时同样存在严重缺陷。CNN 的核心问题在于其局部感受野限制。CNN 通过卷积核提取局部特征，但其感受野受限于核尺寸与堆叠层数。要捕捉长距离依赖关系，需要堆叠更多卷积层，这会导致计算成本急剧增加。

更为关键的是，CNN 在处理文本序列时会破坏位置信息。在 NLP 应用中，CNN 通常会使用池化层来降低特征维度，但池化操作（如最大池化）会破坏文本中单词的相对位置关系。研究者指出，"CNN 中的池化层（Max pooling）却可能会破坏了原本的位置信息。这对于理解语序决定语义的自然语言来说是致命的缺陷。

1.3 2017 年 Transformer 的横空出世

面对传统架构的种种局限，Google Brain 团队在 2017 年提出了一种全新的架构 ------Transformer。这一架构在论文《Attention Is All You Need》中被首次提出，其核心创新是完全摒弃了循环和卷积结构，仅使用自注意力机制来处理序列数据。

图 1《Attention Is All You Need》

Transformer 的设计理念源于一个简单而深刻的观察：在自然语言处理中，理解一个单词的含义往往需要关注句子中其他相关的单词，而这种关注关系并不一定遵循严格的顺序。基于这一洞察，Google 的研究者们开发了自注意力机制，让模型能够在计算序列中任意一个元素的表示时，直接访问并整合序列中所有其他元素的信息。

值得注意的是，Transformer 的诞生源于一个意外的发现。在论文作者的回忆中，他们最初是在做消融实验，试图简化模型结构。"令我们惊讶的是，它开始变得更好。包括像这样扔掉所有的卷积效果要好得多"。这种 "扔掉所有卷积" 的大胆尝试，最终成就了一个划时代的架构创新。

2 Transformer 的核心技术创新

2.1 自注意力机制：打破串行计算的枷锁

自注意力机制是 Transformer 架构的核心创新，它通过 ** 查询（Query）、键（Key）、值（Value）** 的三元组结构实现了革命性的突破。这一机制的基本思想是：对于序列中的每个元素，计算它与其他所有元素之间的关联程度，并根据这种关联程度动态地聚合信息。

具体而言，自注意力机制的计算过程包括以下步骤：首先，将输入序列通过三个线性变换分别生成查询向量 Q、键向量 K 和值向量 V。然后，计算查询向量 Q 与键向量 K 的转置的点积，得到注意力得分。为了防止梯度消失，需要将得分除以键向量维度的平方根进行缩放。接着，通过 Softmax 函数将得分转换为概率分布，得到注意力权重。最后，将注意力权重与值向量 V 相乘并求和，得到该位置的最终表示。

图 2Transformer 架构

这一机制的革命性在于它完全打破了串行计算的限制。与 RNN 必须按顺序处理每个元素不同，自注意力机制可以并行计算序列中所有元素的表示。正如研究者所述，"自注意力机制允许模型在处理每个位置的元素时，同时关注输入序列中的其他所有元素，通过计算元素之间的相关性，动态地分配权重"。

2.2 多头注意力机制：多角度理解语义关系

为了让模型能够从多个角度捕捉语义信息，Transformer 引入了多头注意力机制。这一机制不是执行单次注意力计算，而是将查询、键和值通过不同的线性变换投影多次（通常为 8-16 次），并行地执行多次注意力计算，然后将结果拼接并再次进行线性变换。

多头注意力机制的优势是多方面的。首先，它增强了模型的表达能力 。不同的头可以学习输入数据的不同表示子空间，捕捉不同类型的语义关联。例如，一个头可能关注语法结构，另一个头关注语义关联，还有的头可能专门处理时间顺序信息。其次，它提高了训练稳定性。由于每个头工作在较低维度的空间中，注意力计算的复杂度降低，训练过程更加稳定。

多头机制还具有良好的泛化能力。通过并行处理和集成多个注意力头的结果，模型能够从不同角度捕捉数据的多样性，增强了对复杂序列任务的理解能力这种设计使得 Transformer 能够更好地理解自然语言中的复杂语义关系，为后续的各种 NLP 任务奠定了坚实基础。

2.3 位置编码：解决序列顺序问题

虽然自注意力机制功能强大，但它存在一个先天不足：无法感知文本序列中单词的位置信息。自注意力机制是置换不变的，即打乱输入序列的顺序，输出结果除了顺序变化外保持不变。这显然不符合自然语言处理的需求，因为词序在语言理解中起着决定性作用。

为了解决这个问题，Transformer 引入了位置编码（Positional Encoding）机制。位置编码的基本思想是为序列中的每个位置生成一个独特的向量表示，然后将其与词嵌入向量相加，一同输入到后续的网络层中。这样，模型在处理文本时就能够同时利用单词的语义信息和位置信息。

Transformer 论文中采用的是正弦余弦位置编码。这种编码方式通过正弦和余弦函数的不同频率来表示位置信息，具有以下优点：首先，它能够让模型理解相对位置关系，即两个位置之间的距离；其次，它可以外推到比训练时更长的序列，这对于处理任意长度的文本非常重要；最后，它不需要学习，可以直接计算得到，节省了模型参数。

2.4 编码器 - 解码器架构：序列转换的通用框架

Transformer 采用了经典的编码器 - 解码器（Encoder-Decoder ）架构，这一架构在机器翻译等序列到序列的任务中表现卓越。编码器负责将输入序列转换为一个固定长度的上下文向量，解码器则基于这个上下文向量生成目标序列。

编码器和解码器都由多个相同的层堆叠而成，每个编码器层包含两个子层：多头自注意力机制和位置全连接前馈网络。解码器层则包含三个子层：掩码自注意力层、编码器 - 解码器注意力层和位置全连接前馈网络。掩码自注意力层用于确保在生成当前词时不会 "看到" 未来的词，编码器 - 解码器注意力层则允许解码器关注编码器的输出。

这种架构设计的优势在于它的通用性。通过编码器 - 解码器架构，Transformer 不仅可以用于机器翻译，还可以应用于文本摘要、对话生成等多种序列转换任务。更重要的是，这种架构为后续的预训练模型提供了基础，使得一个模型可以通过微调适应多种不同的任务。