Llama中模块参数大小

LLama2中,流程中数据大小的变换如下

Transformer模块

第一次输入,进行prefill,输入x维度为1, 8, 4096

  1. 构建wq,wk,wv,wo,尺寸均为4096,4096, 与x点乘,得到xq, xk, xv

  2. 构建KV cache, 尺寸为 batch size, max_seq_len, local_kv_heads, head_dim,对应 1, 8, 32, 128

3.基于kv cache构造 keys, alues,对应的尺寸还是1,8,32,128

  1. 在最后两个维度对于xq和key进行点乘,得到scores,维度变成【1, 32, 8, 8】

  2. 将mask与scores相加

  3. 对于scores进行softmax

  4. 将scores 1, 32, 8, 8与values 1, 32, 8, 128进行乘法

  5. 得到output 1, 8, 4096

  6. 将output再与wo进行乘法1, 8, 4096

  7. 接下来对于输出进行 ffn_norm的操作

Feedforward模块

11.然后进行feed_forward.得到当前transformer模块的输出 1, 8, 4096

feed_forward的操作如下,虽然代码很小,但是计算量却很大。

复制代码
    def forward(self, x):
        return self.w2(F.silu(self.w1(x)) * self.w3(x))

其中,w1的维度为11008, 4096, w2的维度为4096, 11008, w3的维度为11008, 4096

kv cache的表达如下

python 复制代码
        self.cache_k = torch.zeros(
            (
                args.max_batch_size,
                args.max_seq_len,
                self.n_local_kv_heads,
                self.head_dim,
            )
        ).cuda()
        self.cache_v = torch.zeros(
            (
                args.max_batch_size,
                args.max_seq_len,
                self.n_local_kv_heads,
                self.head_dim,
            )

关于kv cache的细节讨论

llama2设定 local_kv_heads为32,head_dim为128。所以,kv cache的尺寸为 1, 512,32, 128 * 2

对于一个batch的数据来说哦,因为llama2 7B 包含32个transformer,所以,当使用FP32表达时, 对应一个batch的kv cache的大小为128 * 32 * 128 *2 * 32 * 4byte= 0.5GB.

这里,也可以看到几个变量:

* 当batch变大时,kv cache线性增长

* 当batch 的最大长度增大时, Kv cache线性增长。

参考链接:

https://arxiv.org/pdf/1911.02150

相关推荐
黑巧克力可减脂16 分钟前
以智录声,以技留韵:AI录音,解锁声音留存的古今新范式
人工智能
智慧景区与市集主理人24 分钟前
巨有科技景区智能导览告别传统讲解,打造沉浸式智慧游览体验
人工智能·科技·语音识别
keyanbanyungong1 小时前
告别杂乱病历!临床科研AI工具实测
人工智能·深度学习
出海小龙1 小时前
B2B 跟 B2C 的联盟营销有何根本区别?以及分别如何真正推动增长?
大数据·人工智能
xcLeigh1 小时前
聚合AI工具KULAAI:GPT、Claude、Gemini、DeepSeek热门模型一键使用
人工智能·gpt·claude·gemini·deepseek·聚合ai·kulaai
EnCi Zheng1 小时前
09aaac-RMSNorm是什么?
人工智能
QiLinkOS1 小时前
【从实验室到商业战场:发明专利如何重塑科技与企业的共生生态】
大数据·c语言·数据结构·c++·人工智能·单片机·算法
zhangfeng11331 小时前
AI 日报 | 2026年5月28日
人工智能
ishangy1 小时前
智慧矿山罐笼乘坐人数超限AI检测识别算法
人工智能·ai视觉解决方案·智慧矿山·ai视觉监控·罐笼超员ai检测识别
沐自礼1 小时前
DeepSeekMoE 原理
人工智能·llm