自然语言处理框架：Bert和Transformer

[b.什么是多头注意力（Multi-head Attention）](#b.什么是多头注意力（Multi-head Attention）)

[②全局三角函数位置编码（Trigonometric Positional Encoding](#②全局三角函数位置编码（Trigonometric Positional Encoding)

如文本分类、命名实体识别，并针对医学、负面情感识别等复杂场景具备更强能力。

由编码器 （Encoder）和解码器（Decoder）组成的框架，主要应用于处理序列到序列的问题，如机器翻译、问答等。

输入文本通过Encoder进行特征提取，以捕捉其语义含义。
提取的特征随后被输入到Decoder 中，Decoder通过多层注意力机制 (Attention)、残差连接 (Add Normal)和前馈网络(FFN)逐步生成最终输出。
每个层级都包含多头自注意力机制 ，以并行地处理输入序列中的所有单词，这是其区别于RNN的优点。
由于Transformer不天然保留词序信息，因此需要加入额外的位置编码 （Positional Encoding）即三角函数形式的位置编码，该方法旨在使不同长度句子的位置信息编码保持合理，避免因句子长度变化而影响词义理解的稳定性。

自注意力机制 (Self-Attention Mechanism，当前模型无法处理序列中的词项顺序，因此需要引入自注意力机制来探索单词间的内在联系)

自注意力机制是Transformer的核心组成部分，旨在捕捉文本中词汇之间的复杂关系，该机制通过计算每个词与其他所有词的关联关系来感知上下文。例如，"it"这个词与其代表的"animal"的关系较重，同时也会关注"because"等其他词的关系。

自注意力机制的核心作用是捕捉文本中词语与其余词语之间的关系，为每个词提供一个综合性的上下文特征。
在标准的自注意力计算流程中，每个词向量（embedding）通过三个不同的可学习矩阵（分别是ωQ、ωK、ωV）被转换，分别代表查询（Query）、键（Key）和值（Value）。
与传统的卷积操作类似，这里理解为使用Q、K、V三个"卷积核"从词向量中提取特征。

多头注意力（Multi-head Attention）被提出以增强模型表现。它本质上使用多个并行的QKV，从多个角度捕捉序列的不同特征（可理解为多个不同的"卷积核"），最后将各头的输出进行拼接和降维，得到最终的特征向量

由于模型本身不具备物理空间概念，因此需要引入位置编码（Positional Encoding）来让模型感知输入序列中元素的顺序。

最终，将计算得到的位置编码矩阵与输入的词向量矩阵进行逐点相加，生成带有位置信息的特征矩阵。