Bert的Transformer原理

多义词如何应对:

答:通过Self attention,不同的上下文,对同一个"苹果",得到截然不同的embedding激活值;

Multi-head的作用:

有些类似CNN里用的多个卷积核得到多个Channel的特征图;

从不同的角度去看,每个head侧重不同的特征维度,注意力放在和当前词在某些视角上相似的上下文词。

Attention是矩阵运算:

:对Q或K的特征维度,进行开平方。因为分子是多个乘积加和到一起,方差变大了,除以这个d是为了将方差复原。

模型定义:

d_model是Input和Output的维度;

(如果用了Group-MHA,则k和v的矩阵列数会减少N倍,减少了参数量、计算量、kv-cache量)

Attention:

query的维度顺序:(batch, head, seq_len, feature-dimention)

key经过转置之后:(batch, head, feature-dimention, seq_len)

PyTorch的@矩阵乘法,是对最里面2个维度构成的矩阵,进行的矩阵乘法。

query和key乘完之后:(batch, head, seq_len, seq_len)

前向计算:

注意:入参q,k,v,在Self-attention计算时,都是本句子tokens的上游激活;在Cross-attention计算时,只有q是本句子tokens的上游激活,k和v都是encoder句子tokens的对应层的;

乘完各自的变换矩阵W之后,query、key、value的维度都是:

(batch, seq_len, all-feature-dimention)

经过多头注意力划分,得到:

(batch, seq_len, head, per-head-feature-dimention)

对中间2个维度进行转置,得到:

(batch, head, seq_len, per-head-feature-dimention)

经过Attention计算完成之后,又将中间两个维度转置回来,相当于将所有head的矩阵concat到一起了;

LayerNormalization:

注意,是对每个token,其所有特征维度,进行标准化。

是可学习的,维度是hidden-size的维度;

残差层:

好处:在层数多的网络里,有一条直达捷径,可以让梯度直接传到到前面;解决了梯度消失问题;

全连接FFN层:

2个矩阵乘法,中间的激活的维度d_ff,可以不等于输入和输出的维度d_model;

2个矩阵乘法之间,有ReLU和Dropout

Position Embedding:

i是第几维度的特征;t是token所在句子中的位置;

i小的时候,w接近1,值随t的变化大;

i大的时候,w接近0,值随t的变化小;

特性1:句子再长,也能拿到位置编码向量;

特性2:两个token之间,保持一定的距离,无论他俩在句子中的什么位置,2个token的位置编码的点乘,都是不变的:

代码:

Decoder的Masked Self-attention:

Decoder侧,每个token只能把句子左侧和自己的token,参与计算;

代码:

softmax之前,将mask的维度,赋予极小负数,e的x次方接近0,softmax之后,该维度的值就接近0;

Decoder的Cross-Attention:

代码:

Self-Attention, Q、K、V的输入,都是decoder侧的tokens的上游激活值;

Cross-Attention,Q的输入是decoder侧的,K、V的输入是encoder侧的tokens的对应层的激活值;

(注意:以上激活值,再attention内部,还要乘以各自的W矩阵,才得到Q、K、V)

视频课程:

大模型修炼之道(一): Transformer Attention is all you need_哔哩哔哩_bilibili

相关推荐
后端小张11 小时前
智眼法盾:基于Rokid AR眼镜的合同条款智能审查系统开发全解析
人工智能·目标检测·计算机视觉·ai·语言模型·ar·硬件架构
Peter_Monster1 天前
大语言模型(LLM)架构核心解析(干货篇)
人工智能·语言模型·架构
AI绘画哇哒哒2 天前
【收藏必看】大模型智能体六大设计模式详解:从ReAct到Agentic RAG,构建可靠AI系统
人工智能·学习·ai·语言模型·程序员·产品经理·转行
python零基础入门小白2 天前
【万字长文】大模型应用开发:意图路由与查询重写设计模式(从入门到精通)
java·开发语言·设计模式·语言模型·架构·大模型应用开发·大模型学习
重整旗鼓~2 天前
3.会话功能-AiServices工具类
java·语言模型·langchain
清云逸仙2 天前
AI Prompt应用实战:评论审核系统实现
人工智能·经验分享·ai·语言模型·prompt·ai编程
清云逸仙2 天前
使用AI(GPT-4)实现AI prompt 应用--自动审核评论系统
人工智能·经验分享·ai·语言模型·ai编程
Curvatureflight3 天前
GPT-4o Realtime 之后:全双工语音大模型如何改变下一代人机交互?
人工智能·语言模型·架构·人机交互
做cv的小昊3 天前
VLM经典论文阅读:【综述】An Introduction to Vision-Language Modeling
论文阅读·人工智能·计算机视觉·语言模型·自然语言处理·bert·transformer
开放知识图谱3 天前
论文浅尝 | 利用条件语句激发和提升大语言模型的因果推理能力(CL2025)
人工智能·语言模型·自然语言处理