大模型核心基础知识(20)—Transformer架构的组成


版权声明


Transformer模型是现代大模型最重要的基础架构之一。上一篇文章介绍了自注意力机制的工作原理,而自注意力机制只是Transformer中的一个重要组成部分。真正使Transformer具备强大建模能力的,是编码器、解码器、自注意力机制、前馈神经网络、位置编码、残差连接和层归一化等多个模块共同组成的完整架构。理解Transformer的整体结构以及信息在模型内部的流动过程,有助于进一步理解大语言模型为什么能够完成文本理解、内容生成以及复杂推理等任务。

一、Transformer的整体架构

Transformer整体采用编码器(Encoder)和解码器(Decoder)相结合的架构。

整个模型可以划分为两个部分:

  • 编码器负责理解输入内容;
  • 解码器负责生成输出内容。

两部分既相互独立,又彼此协作。

在训练和推理过程中,输入文本首先进入编码器进行处理,编码器不断提取文本中的语义信息,并形成能够表示整个输入内容的内部表示。随后,这些表示会传递给解码器,解码器再结合已经生成的内容,逐步生成最终输出。

因此,Transformer并不是一次完成全部计算,而是经历"理解输入---形成表示---生成输出"这样一个连续的信息处理过程。

二、编码器的组成方式

编码器主要负责理解输入序列。

Transformer中的编码器通常不是只有一层,而是由多个完全相同的编码器模块依次堆叠组成。

每一个编码器模块通常包括两个主要组成部分:

  • 多头自注意力机制(Multi-Head Self-Attention)
  • 前馈神经网络(Feed Forward Network,FFN)

除此之外,每个模块内部还包含:

  • 残差连接(Residual Connection)
  • 层归一化(Layer Normalization)

输入序列首先进入第一层编码器。

经过自注意力机制后,模型能够分析整个输入序列中各词元之间的关系;随后进入前馈神经网络,对已经提取出的语义信息进一步加工;最后输出新的表示,并继续传递给下一层编码器。

经过多层重复处理之后,输入文本逐渐由原始词元表示转换为更加丰富、更具有语义信息的向量表示。

可以理解为:

第一层更多关注局部信息;

随着层数不断增加,模型逐渐学习更加复杂、更抽象的语义关系。

因此,多层编码器实际上构成了一个不断提取高层语义特征的过程。

三、解码器的组成方式

解码器主要负责生成输出序列。

与编码器类似,解码器同样由多个完全相同的解码器模块堆叠组成。

不过,每一个解码器模块通常包含三个主要部分:

  • 掩码自注意力机制(Masked Self-Attention)
  • 编码器---解码器注意力机制(Encoder-Decoder Attention)
  • 前馈神经网络

同时,每个部分之后同样包含残差连接和层归一化。

解码器与编码器最大的区别在于:

它不仅需要理解已经生成的内容,还需要参考编码器提供的输入信息。

因此,解码器中的注意力实际上来源于两个方向。

第一个方向,是已经生成的输出内容。

第二个方向,是编码器输出的整个输入表示。

只有综合这两部分信息,解码器才能逐步生成符合上下文的新内容。

四、位置编码的作用

Transformer没有采用循环结构,因此模型本身无法直接感知词元之间的先后顺序。

例如:

今天 学习 人工智能

人工智能 学习 今天

如果仅依靠词向量,两句话包含完全相同的词元集合,但顺序不同,语义却发生了明显变化。

为了让模型能够识别词元位置,Transformer引入了位置编码(Positional Encoding)。

位置编码会在输入阶段,为每一个词元增加位置信息,使模型既能够获得词语本身的语义表示,又能够知道它位于整个序列中的哪个位置。

这样,自注意力机制在计算词元之间关系时,就不仅能够利用词义信息,也能够结合位置信息建立更加准确的上下文联系。

位置编码虽然只发生在输入阶段,却贯穿整个Transformer的信息处理过程,是保证模型能够理解语序的重要组成部分。

五、前馈神经网络的作用

经过自注意力机制之后,每一个词元已经融合了整个输入序列的信息。

但模型并不会直接输出结果,而是继续进入前馈神经网络。

前馈神经网络主要负责对已经融合完成的信息进行进一步变换和提取。

它通常由两层全连接网络组成,中间配合非线性激活函数,使模型能够学习更加复杂的数据特征。

可以理解为:

自注意力机制负责建立词元之间的联系;

前馈神经网络负责提升每一个词元自身的表示能力。

两者共同完成了一层Transformer的主要计算过程。

因此,Transformer并不是只有注意力机制,而是注意力机制与前馈神经网络交替组成完整结构。

六、残差连接与层归一化

随着Transformer层数不断增加,如果仅依靠普通网络连接,训练过程容易出现梯度消失、梯度爆炸以及训练不稳定等问题。

为了改善这一情况,Transformer引入了残差连接。

残差连接允许模型把输入信息直接传递到后续层,再与当前层输出进行融合。

这样既保留了原始信息,又改善了深层网络的信息传播能力,使模型训练更加稳定。

与此同时,每个子模块之后都会执行层归一化。

层归一化主要用于调整网络中各层输出的数据分布,使不同层之间保持更加稳定的数值范围。

稳定的数据分布不仅有助于模型收敛,也能够提高整体训练效率。

因此,残差连接负责改善信息传递,层归一化负责稳定训练过程,两者共同保证Transformer能够扩展到几十层甚至上百层网络。

七、Transformer中的信息流动过程

Transformer内部的信息流动可以概括为以下几个阶段。

首先,输入文本经过分词处理,被转换为词元序列。

随后,每个词元转换为对应的向量表示,并加入位置编码。

接着,整个输入序列进入编码器。

编码器经过多层自注意力机制和前馈神经网络处理之后,形成能够表示整个输入内容的上下文表示。

这些表示随后传递给解码器。

解码器一方面读取已经生成的输出内容,另一方面参考编码器提供的上下文信息,通过多层处理不断预测下一个词元。

模型生成一个新的词元之后,再把这个词元作为新的输入继续进入下一轮生成。

整个过程不断重复,直到生成结束标记或达到最大生成长度。

因此,Transformer实际上形成了如下信息流动路径:

输入文本 → 分词 → 向量表示 → 位置编码 → 编码器 → 上下文表示 → 解码器 → 预测下一个词元 → 重复生成 → 输出完整结果

整个过程中,编码器负责理解输入,解码器负责组织输出,两者共同完成整个序列生成任务。

八、Transformer架构对大模型发展的意义

Transformer架构最大的价值,在于把多个功能模块组织成为一套能够支持大规模训练的统一框架。

自注意力机制负责建立全局语义联系,前馈神经网络负责提升表示能力,位置编码负责表示词元顺序,残差连接和层归一化保证训练稳定性,而编码器和解码器则共同完成输入理解与输出生成。

正是这些模块相互协作,Transformer才能在自然语言处理领域取得突破,并逐渐成为现代大语言模型的基础架构。

后续出现的BERT、GPT、T5以及众多开源大模型,虽然在具体实现方式上不断演进,但整体设计思想都来源于Transformer架构。

理解Transformer的信息流动过程,不仅有助于理解模型如何完成文本理解和内容生成,也为后续学习Transformer的典型应用领域、大语言模型架构演进以及现代智能体技术奠定了重要基础。