技术栈
动态淘汰
minhuan
5 小时前
kv cache优化
·
动态淘汰
·
全局共享
·
kv cache原来
·
模型性能优化
KV Cache优化实战:分层量化、动态淘汰、全局共享,攻克长上下文显存难题.157
在大模型的推理过程中,KV Cache 是专门为Transformer注意力机制设计的中间结果缓存技术。我们先回归Transformer 的核心:自注意力机制(Self-Attention),它的计算逻辑是:输入文本会被转换成三个向量:Query(查询向量 Q)、Key(键向量 K)、Value(值向量 V),注意力分数 = Q×Kᵀ,再通过Softmax归一化后与V相乘,得到最终的注意力输出。
我是有底线的