Attention计算中的各个矩阵的维度都是如何一步步变化的?

在Transformer模型中,各个矩阵的维度变化是一个关键的过程,涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变化过程:

输入阶段

  • 输入序列 :假设输入序列的长度为seq_len,每个单词或标记通过词嵌入(word embedding)转换为一个固定维度的向量,维度为d_model。因此,输入矩阵的维度为(seq_len, d_model)
  • 位置编码 :位置编码(Positional Encoding)通常与词嵌入向量相加,以提供序列中每个单词的位置信息。位置编码的维度与词嵌入相同,即(seq_len, d_model)

编码器(Encoder)阶段

  • 多头注意力机制(Multi-Head Attention)

    • 查询(Q)、键(K)、值(V)矩阵 :输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为d_k(通常d_k = d_model / num_heads),则Q、K、V的维度为(seq_len, d_k)
    • 注意力计算 :Q与K的转置相乘,得到一个注意力得分矩阵,维度为(seq_len, seq_len)。经过softmax处理后,再与V相乘,得到输出矩阵,维度为(seq_len, d_k)
    • 多头拼接 :将所有头的输出拼接或平均,得到最终的输出矩阵,维度为(seq_len, d_model)
  • 前馈神经网络(Feed-Forward Network)

    • 输入矩阵经过两个线性变换和非线性激活函数,最终输出的维度保持为(seq_len, d_model)

解码器(Decoder)阶段

  • 掩码多头注意力机制(Masked Multi-Head Attention)

    • 类似于编码器中的多头注意力机制,但使用了掩码来防止解码器在生成时"偷看"未来的信息。输出矩阵的维度为(seq_len, d_model)
  • 编码器-解码器注意力机制

    • 解码器的查询(Q)与编码器的键(K)和值(V)进行注意力计算,输出矩阵的维度为(seq_len, d_model)

输出阶段

  • 线性层和Softmax
    • 解码器的输出经过一个线性层,将维度从(seq_len, d_model)转换为(seq_len, vocab_size),其中vocab_size是词汇表的大小。
    • 最后通过Softmax层,得到每个单词的概率分布,用于预测下一个单词。

这些维度变化确保了Transformer模型能够有效地处理序列数据,并在各个层之间传递和转换信息。

相关推荐
墨绿色的摆渡人11 分钟前
pytorch小记(一):pytorch矩阵乘法:torch.matmul(x, y)
人工智能·pytorch·矩阵
墨绿色的摆渡人13 分钟前
pytorch小记(二):pytorch中的连接操作:torch.cat(tensors, dim=0)
人工智能·pytorch·python
一点一木34 分钟前
TensorFlow.js 和 Brain.js 全面对比:哪款 JavaScript AI 库更适合你?
前端·javascript·人工智能
秋野酱1 小时前
嵌入式系统中的 OpenCV 与 OpenGLES 协同应用
人工智能·opencv·计算机视觉
一水鉴天1 小时前
为AI聊天工具添加一个知识系统 之32 三“中”全“会”:推理式的ISA(父类)和IOS(母本)以及生成式CMN (双亲委派)之1
人工智能
宇宙核2 小时前
机器学习算法(二): 朴素贝叶斯(Naive Bayes)
人工智能·算法·机器学习
Debroon2 小时前
Plan-on-Graph:通过任务分解和路径探索,将问题逐步缩小至答案,结合反思纠错与动态探索,确保推理方向的灵活性与鲁棒性
人工智能
XianxinMao2 小时前
《AI发展的双重困境:技术扩展性与用户体验的矛盾,以及AGI理想与现实的差距》
人工智能
Elastic 中国社区官方博客2 小时前
Elasticsearch:在 HNSW 中提前终止以实现更快的近似 KNN 搜索
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
Elastic 中国社区官方博客2 小时前
Elasticsearch:向量数据库基础设施类别的兴衰
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索