Transformer 大语言模型(LLM)基石 - Transformer架构详解 - 自注意力机制(Self-Attention)原理介绍

锋哥原创的Transformer 大语言模型(LLM)基石视频教程:

https://www.bilibili.com/video/BV1X92pBqEhV

课程介绍

本课程主要讲解Transformer简介,Transformer架构介绍,Transformer架构详解,包括输入层,位置编码,多头注意力机制,前馈神经网络,编码器层,解码器层,输出层,以及Transformer Pytorch2内置实现,Transformer基于PyTorch2手写实现等知识。

Transformer 大语言模型(LLM)基石 - Transformer架构详解 - 自注意力机制(Self-Attention)原理介绍

自注意力机制的目标是计算输入序列中每个词语与其他词语的关系。通过这种机制,模型能够自适应地选择与每个词语相关的信息,以构建其上下文表示。

核心组件:
  • Q(Query):查询向量,表示当前关注的点

  • K(Key):键向量,表示被查询的点

  • V(Value):值向量,包含实际的信息

  • 注意力分数:Q和K的相似度

计算注意力权重

接着,通过计算 Query 和 Key 的相似度来确定每个词语对其他词语的关注程度。这个相似度通常通过计算点积来实现,并对结果进行缩放以避免数值过大。具体地,计算方式为:

其中,dk是 Key 向量的维度。通过 softmax 操作,得到的矩阵表示了每个词语对于其他词语的注意力权重。

除以开根号dk,主要目的是防止梯度消失和q,k的统计变量满足正太分布,实现归一化。

输出

最后,将这些注意力权重与对应的 Value 向量进行加权平均,得到每个词语的上下文表示。

相关推荐
vibag1 天前
Model大模型接口
python·语言模型·langchain·大模型
vibag1 天前
提示模板PromptTemplate
python·语言模型·langchain·大模型
童话名剑1 天前
Inception网络(吴恩达深度学习笔记)
网络·笔记·深度学习
雍凉明月夜1 天前
深度学习之目标检测(1)
人工智能·深度学习·目标检测
lambo mercy1 天前
多元函数的神经网络与深度学习
深度学习·神经网络
All The Way North-1 天前
[实战分享] PyTorch实战:手机价格区间分类(95%准确率)+ 模型保存/加载/loss波动全解析
pytorch·深度学习·实战教程·全连接神经网络案例·手机价格区间分类·神经网络全过程
有Li1 天前
一种用于超分辨率磁共振波谱成像的基于流的截断去噪扩散模型/文献速递-基于人工智能的医学影像技术
论文阅读·深度学习·文献·医学生
童话名剑1 天前
迁移学习示例 和 数据增强(吴恩达深度学习笔记)
笔记·深度学习·数据增强·迁移学习
deephub1 天前
DeepSeek 开年王炸:mHC 架构用流形约束重构 ResNet 残差连接
人工智能·python·深度学习·神经网络·残差链接