算法手撕面经系列(1)--手撕多头注意力机制

多头注意力机制

一个简单的多头注意力模块可以分解为以下几个步骤:

  1. 先不分多头,对输入张量分别做变换,得到 Q , K , V Q,K,V Q,K,V
  2. 对得到的 Q , K , V Q,K,V Q,K,V按头的个数进行split;
  3. 用 Q , K Q,K Q,K计算向量点积
  4. 考虑是否要添因果mask
  5. 利softmax计算注意力得分矩阵atten
  6. 对注意力得分矩阵施加Dropout
  7. 将atten矩阵和 V V V矩阵相乘
  8. 再过一道最终的输出变换

代码

给出一个 d k = d v = d m o d e l d_k=d_v=d_{model} dk=dv=dmodel的多头注意力实现如下:

python 复制代码
class MHA(nn.Module):
    def __init__(self,C_in,dmodel,num_head=8,p_drop=0.2):
        super(MHA, self).__init__()

        self.QW=nn.Linear(C_in,dmodel)
        self.KW=nn.Linear(C_in,dmodel)
        self.VW=nn.Linear(C_in,dmodel)

        self.dp=nn.Dropout(p_drop)

        self.W_concat=nn.Linear(dmodel,dmodel)

        self.n_head=num_head
        self.p_drop=p_drop
        self.depth=dmodel//num_head

    def forward(self,X,casual=True):
        B,L,C=X.shape
        Q=self.QW(X)
        K=self.KW(X)
        V=self.VW(X)

        Q=Q.reshape((B,L,self.n_head,-1)).permute(0,2,1,3)
        K=K.reshape((B,L,self.n_head,-1)).permute(0,2,1,3)
        V=V.reshape((B,L,self.n_head,-1)).permute(0,2,1,3)

        atten=Q.matmul(K.transpose(2,3))

        if casual:
            mask=torch.triu(torch.ones(L,L))
            atten=torch.where(mask==1,atten,torch.ones_like(atten)*(-2**32+1))
        atten=torch.softmax(atten,dim=-1)

        atten=self.dp(atten)

        out=torch.matmul(atten,V)/self.depth**(1/2)

        out=out.permute(0,2,1,3).reshape(B,L,-1)
        out=self.W_concat(out)

        return out


if __name__=="__main__":
    input=torch.rand(10,5,3)
    model=MHA(3,64,4)
    res=model(input)
相关推荐
VT.馒头1 分钟前
【力扣】2705. 精简对象
javascript·数据结构·算法·leetcode·职场和发展·typescript
元亓亓亓10 分钟前
LeetCode热题100--136. 只出现一次的数字--简单
算法·leetcode·职场和发展
铁蛋AI编程实战12 分钟前
ChatWiki 开源 AI 文档助手搭建教程:多格式文档接入,打造专属知识库机器人
java·人工智能·python·开源
Loacnasfhia913 分钟前
【深度学习】【目标检测】YOLO11-C3k2-Faster-EMA模型实现草莓与番茄成熟度及病害识别系统
人工智能·深度学习·目标检测
程序员小远13 分钟前
UI自动化测试用例管理平台搭建
自动化测试·软件测试·python·selenium·测试工具·职场和发展·测试用例
2301_7634725815 分钟前
实时系统下的C++编程
开发语言·c++·算法
张祥64228890415 分钟前
二次型:从线性代数到测量平差的桥梁
线性代数·算法·机器学习
im_AMBER15 分钟前
Leetcode 113 合并 K 个升序链表
数据结构·学习·算法·leetcode·链表
小明_GLC17 分钟前
Docker 构建镜像一直卡在下载 Python?
python·docker·容器
高洁0118 分钟前
基于物理交互的具身智能决策框架设计
算法·机器学习·数据挖掘·transformer·知识图谱