技术栈

动态淘汰

minhuan
5 小时前
kv cache优化·动态淘汰·全局共享·kv cache原来·模型性能优化
KV Cache优化实战:分层量化、动态淘汰、全局共享,攻克长上下文显存难题.157在大模型的推理过程中,KV Cache 是专门为Transformer注意力机制设计的中间结果缓存技术。我们先回归Transformer 的核心:自注意力机制(Self-Attention),它的计算逻辑是:输入文本会被转换成三个向量:Query(查询向量 Q)、Key(键向量 K)、Value(值向量 V),注意力分数 = Q×Kᵀ,再通过Softmax归一化后与V相乘,得到最终的注意力输出。
我是有底线的