推理引擎方向（二）《大模型原理与结构》

[1. 向量到向量（Vector to Vector）任务](#1. 向量到向量（Vector to Vector）任务)

[2. 序列到序列（Sequence to Sequence）任务](#2. 序列到序列（Sequence to Sequence）任务)

[3. 词性标注任务示例](#3. 词性标注任务示例)

[1. 滑动窗口方法](#1. 滑动窗口方法)

[2. 循环神经网络（RNN）](#2. 循环神经网络（RNN）)

[3. 注意力机制（Attention Mechanism）](#3. 注意力机制（Attention Mechanism）)

[1. 自注意力层计算](#1. 自注意力层计算)

[2. 位置信息处理](#2. 位置信息处理)

[3. 多头注意力机制](#3. 多头注意力机制)

[1. Decoder 模块](#1. Decoder 模块)

[2. MLP 层结构](#2. MLP 层结构)

[1. 词表构建与分词方法](#1. 词表构建与分词方法)

[2. 向量表示方法](#2. 向量表示方法)

本节课正式开启大模型推理系统的核心内容讲解，作为六节系列课程的第二课，重点解析支撑现代大语言模型的 Transformer 架构与自注意力机制。

• 上下文信息通过计算输入之间的相似度分数，并经 Softmax 归一化得到注意力权重分布
• 计算流程：query、key、value 向量映射，计算相关程度，Softmax 处理，得到注意力输出。
• 具体计算流程：它通过将输入的词向量（如"道"）与学习到的权重矩阵相乘，分别映射为 Query（查询）、**Key（键）**和 Value（值）三个向量，并通过计算 Query 与 Key 的点积（如图中的）来衡量不同输入之间的相关性权重，从而实现模型对重要特征的聚焦。

• Softmax 的原理：它通过指数映射和归一化处理，将任意范围的激活值转换为总和为 1 的概率分布；
• 数值稳定版本 Safe Softmax：为了防止在计算过程中因输入值过大导致数值溢出，Safe Softmax 引入了减去向量最大值 () 的技巧，在保证数学等价性的前提下提升了算子在工程实现中的稳定性。