GQA分组注意力机制

一、目录

  1. 定义
  2. demo

二、实现

  1. 定义
    grouped query attention(GQA)
    1 GQA 原理与优点:将query 进行分组,每组query 参数共享一份key,value, 从而使key, value 矩阵变小。
    2. 优点: 降低内存读取模型权重的时间开销:由于Key矩阵和Value矩阵数量变少了,因此权重参数量也减少了,需要读取到内存的数量量少了,因此减少了读取权重的等待时间。
    3. 效果(并未降低模型性能):GQA通过设置合适的分组大小,可以和MQA的推理性能几乎相等,同时逼近MHA的模型性能。

  2. llama3 分组数为4, chatglm2 分组数为2 .


    参考:https://zhuanlan.zhihu.com/p/693928854
    demo

    import torch
    import torch.nn as nn
    import math

    #GQA
    bs=3
    seq_len =5
    hidden_size= 32
    n_heads=4
    n_kv_heads = 2
    head_dim = hidden_size//n_heads #
    groups = n_heads//n_kv_heads # 4/2
    print("groups=",groups)
    x=torch.randn((bs,seq_len,hidden_size))
    print("x:", x.shape)
    wq = nn.Linear(hidden_size,n_heads*head_dim,bias=False)
    wk = nn.Linear(hidden_size, n_kv_heads * head_dim, bias=False)
    wv = nn.Linear(hidden_size, n_kv_heads * head_dim, bias=False)
    xq,xk,xv=wq(x),wk(x),wv(x)
    xq = xq.view(bs,seq_len, n_heads, head_dim).transpose(1, 2)
    xk = xk.view(bs,seq_len, n_kv_heads, head_dim).transpose(1, 2)
    xv = xv.view(bs,seq_len, n_kv_heads, head_dim).transpose(1, 2)
    print("xq:",xq.shape) #[bs,n_heads,seq_len, head_dim]
    print("xk:", xk.shape)#[bs,n_kv_heads,seq_len, head_dim]
    print("xv:", xv.shape)#[bs,n_kv_heads,seq_len, head_dim]
    def repeat_kv(keys: torch.Tensor, values: torch.Tensor, repeats: int, dim: int):
    keys = torch.repeat_interleave(keys, repeats=repeats, dim=dim)
    values = torch.repeat_interleave(values, repeats=repeats, dim=dim)
    return keys, values
    #复制kv head
    key,val = repeat_kv(xk,xv, groups,dim=1)
    print("key:", key.shape)
    print("val:", val.shape)
    attn_weights = torch.matmul(xq, key.transpose(2, 3)) / math.sqrt(head_dim)
    print("attn_weights:", attn_weights.shape) #[bs,n_heads,seq_len,seq_len]
    attn_output = torch.matmul(attn_weights, val)
    print("attn_output:", attn_output.shape) # [bs,n_heads,seq_len,head_dim]

相关推荐
槑槑紫24 分钟前
深度学习pytorch整体流程
人工智能·pytorch·深度学习
盼小辉丶37 分钟前
TensorFlow深度学习实战——去噪自编码器详解与实现
人工智能·深度学习·tensorflow
kebijuelun2 小时前
百度文心 4.5 大模型详解:ERNIE 4.5 Technical Report
人工智能·深度学习·百度·语言模型·自然语言处理·aigc
微学AI4 小时前
遥感影像岩性分类:基于CNN与CNN-EL集成学习的深度学习方法
深度学习·分类·cnn
IT古董4 小时前
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(5)PyTorch 实战——使用 RNN 进行人名分类
pytorch·深度学习·神经网络
机器学习之心6 小时前
小波增强型KAN网络 + SHAP可解释性分析(Pytorch实现)
人工智能·pytorch·python·kan网络
视觉语言导航6 小时前
ICCV-2025 | 复杂场景的精准可控生成新突破!基于场景图的可控 3D 户外场景生成
人工智能·深度学习·具身智能
AI街潜水的八角8 小时前
深度学习图像分类数据集—濒危动物识别分类
人工智能·深度学习
安思派Anspire9 小时前
LangGraph + MCP + Ollama:构建强大代理 AI 的关键(一)
前端·深度学习·架构
FF-Studio9 小时前
大语言模型(LLM)课程学习(Curriculum Learning)、数据课程(data curriculum)指南:从原理到实践
人工智能·python·深度学习·神经网络·机器学习·语言模型·自然语言处理