Transformer参数量

丰海洋2026-04-04 13:47

**1. Token Embedding:**嵌入层的作用是将输入的词或标记转换为固定维度的向量。假设词汇表的大小为 V，嵌入向量的维度为 d_model。那么嵌入层的参数量就是 V × d_model

2. 位置编码

(1) Position Embeddings: max_position×d_model

(2) Segment Embeddings: num_segments×d_model

3. Multi-Head Attention: 多头自注意力机制由多个注意力头组成。每个注意力头包括三个线性变换，分别是查询（Query）、键（Key）和值（Value）的变换。假设有 h 个注意力头，每个头的维度为 d_k（通常 d_k = d_model / h）。

对于每个注意力头的查询、键和值的变换，参数量分别是 d_model × d_k。因为有 h 个注意力头，所以总共有 3 × h × d_model × d_k 参数用于这些线性变换。
**4. Layernorm:**残差连接和层归一化（Layer Normalization）部分。层归一化部分的参数量相对较少，每个层归一化有 2 × d_model 个参数（包括一个缩放参数和一个偏移参数)。

5.前馈网络： Transformer 中的前馈神经网络通常是位置 - 智能的，每个位置都有相同的结构。它包括两个线性变换，中间有一个激活函数（一般是 ReLU）。假设前馈神经网络的隐藏层维度为 d_ff。

第一个线性变换的参数量是 d_model × d_ff，第二个线性变换的参数量是 d_ff × d_model。因此，前馈神经网络的参数量为 d_model × d_ff + d_ff × d_model + d_model + d_ff （别忘记偏置项）