KV Cache

被制作时长两年半的个人练习生2026-01-20 15:59

原理

这里贴一张经典的图（ref:https://infrasys-ai.github.io/aiinfra-docs/05Infer02InferSpeedUp/01KVCache.html）

但我个人觉得这个图不能体现KV Cache减少计算的情况，因为看起来Attention的结果在前后也有优化，但实际上左边的Q也可以改成单个的，关键的是不需要重复计算K和V了。

数学推理参考https://datahonor.com/blog/2025/06/03/llm_kv_cache/

prefix Cache

直白讲，就是在KV Cache保存时，如果是相同前缀的完全相同的block，可以复用。

比如下面的问题2（ref:https://zhuanlan.zhihu.com/p/1916181593229334390），这里的前缀如果变了，对应上图中K和V的前面几根柱形发生了变化，会直接影响所有的生成的Attention的结果，因此不能复用。（似乎可以是一个优化点？比如通过调整输入prompt的顺序，或是进行同义prompt的转换）

上一篇：C++之继承

下一篇：AI 智能体高可靠设计模式：深度推理的多跳检索

热门推荐

01GitHub 镜像站点 02【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 03OpenClaw 使用和管理 MCP 完全指南 04Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 05OpenClaw + 飞书（Feishu）环境搭建指南 06Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 07AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 08Window 10部署openclaw报错node.exe : npm error code 128 09AI Agent 平台横评：ZeroClaw vs OpenClaw vs Nanobot 10OpenClaw优化飞书API 额度已耗尽问题