Attention计算中的各个矩阵的维度都是如何一步步变化的？

zjun30212025-01-13 16:59

在Transformer模型中，各个矩阵的维度变化是一个关键的过程，涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变化过程：

输入阶段

输入序列 ：假设输入序列的长度为seq_len，每个单词或标记通过词嵌入（word embedding）转换为一个固定维度的向量，维度为d_model。因此，输入矩阵的维度为(seq_len, d_model)。
位置编码 ：位置编码（Positional Encoding）通常与词嵌入向量相加，以提供序列中每个单词的位置信息。位置编码的维度与词嵌入相同，即(seq_len, d_model)。

编码器（Encoder）阶段

多头注意力机制（Multi-Head Attention）：
- 查询（Q）、键（K）、值（V）矩阵 ：输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为d_k（通常d_k = d_model / num_heads），则Q、K、V的维度为(seq_len, d_k)。
- 注意力计算 ：Q与K的转置相乘，得到一个注意力得分矩阵，维度为(seq_len, seq_len)。经过softmax处理后，再与V相乘，得到输出矩阵，维度为(seq_len, d_k)。
- 多头拼接 ：将所有头的输出拼接或平均，得到最终的输出矩阵，维度为(seq_len, d_model)。
前馈神经网络（Feed-Forward Network）：
- 输入矩阵经过两个线性变换和非线性激活函数，最终输出的维度保持为(seq_len, d_model)。

解码器（Decoder）阶段

掩码多头注意力机制（Masked Multi-Head Attention）：
- 类似于编码器中的多头注意力机制，但使用了掩码来防止解码器在生成时"偷看"未来的信息。输出矩阵的维度为(seq_len, d_model)。
编码器-解码器注意力机制：
- 解码器的查询（Q）与编码器的键（K）和值（V）进行注意力计算，输出矩阵的维度为(seq_len, d_model)。

输出阶段

线性层和Softmax ：
- 解码器的输出经过一个线性层，将维度从(seq_len, d_model)转换为(seq_len, vocab_size)，其中vocab_size是词汇表的大小。
- 最后通过Softmax层，得到每个单词的概率分布，用于预测下一个单词。

这些维度变化确保了Transformer模型能够有效地处理序列数据，并在各个层之间传递和转换信息。

上一篇：【LeetCode: 240. 搜索二维矩阵 II + 指针 + 遍历】

下一篇：【蓝牙】win11 笔记本电脑连接 hc-06

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 07Linux下V2Ray安装配置指南 08Labelme从安装到标注：零基础完整指南 09全球最强模型Grok4，国内已可免费使用！（附教程）1046个Nano-banana 精选提示词，持续更新中