动态淘汰 - 动态淘汰技术,学习,经验文章

minhuan

21 天前

KV Cache优化实战：分层量化、动态淘汰、全局共享，攻克长上下文显存难题.157在大模型的推理过程中，KV Cache 是专门为Transformer注意力机制设计的中间结果缓存技术。我们先回归Transformer 的核心：自注意力机制（Self-Attention），它的计算逻辑是：输入文本会被转换成三个向量：Query（查询向量 Q）、Key（键向量 K）、Value（值向量 V），注意力分数 = Q×Kᵀ，再通过Softmax归一化后与V相乘，得到最终的注意力输出。