技术栈
kv缓存
缘友一世
7 天前
人工智能
·
深度学习
·
缓存
·
transformer
·
llama
·
gqa
·
kv缓存
LLama 3分组查询注意力与KV缓存机制
要理解分组查询注意力(Group Mulit-Query Attention,GQA) 的价值,我们首先要明白它解决了什么问题。这个问题主要源于 LLM 的自回归生成方式和多头注意力机制。
九章云极AladdinEdu
9 天前
vllm
·
kv缓存
·
推理优化
·
pagedattention
·
连续批处理
·
吞吐量对比
大模型推理服务优化:vLLM的PagedAttention与连续批处理实现
大型语言模型(LLM)推理面临两大核心矛盾:计算密度高(单次推理需数十亿次浮点运算)与内存消耗大。以LLaMA-13B为例,仅KV缓存(Key-Value Cache)存储单个序列就可能占用1.7GB内存,而传统推理系统(如HuggingFace Transformers、FasterTransformer)由于固定内存预分配策略,导致60%-80%的内存因碎片化和过度保留而被浪费。
kunwen123
2 个月前
缓存
·
kv缓存
·
cot技术
推理还是训练 || KV缓存和CoT技术
App对大型模型API需求将呈指数增长,因此未来在大模型推理方面的需求必然还有巨大的增量空间。而KV缓存和CoT技术的应用,让推理方面有很多系统设计方面的优化和挑战。所以如果有得选的话,推荐去推理相关的AI Infra的方向. 作为一个AI Infra,还是要熟悉一些关于硬件(特别是Nivaida设备)的基本参数和发展方向。比如说 CUDA,NVlink, IB这些基本概念需要做到心中有个具体的概念和参数。
deephub
10 个月前
人工智能
·
深度学习
·
transformer
·
大语言模型
·
kv缓存
SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架
Key-Value (KV)缓存已成为大语言模型(LLM)长文本处理的关键性能瓶颈。当前研究尚未充分关注解码阶段的优化,这一阶段具有同等重要性,因为:
HuggingFace
1 年前
量化
·
kv缓存
用 KV 缓存量化解锁长文本生成
很高兴和大家分享 Hugging Face 的一项新功能: KV 缓存量化 ,它能够把你的语言模型的速度提升到一个新水平。
我是有底线的