什么是前缀缓存,缓存命中

在使用deepseek V4时,我们会发现调用API时的价格描述中分为了缓存命中和未命中两类,那么什么是缓存命中呢?

1. 基本概念

前缀缓存(Prefix Caching / KV Cache Reuse)

大模型推理时,每个token都要计算Key和Value向量,存入KV Cache。当多次请求共享相同的输入前缀(如system prompt、few-shot示例),这些前缀对应的KV Cache可以被复用,不必重复计算。

缓存命中(Cache Hit)

当新请求的前缀与缓存中已有的前缀匹配时,称为"命中",直接加载已有的KV Cache,跳过这部分的计算。未匹配则"未命中"(Cache Miss),需要重新计算。

2. 工作原理

请求A: systemcontext问题A → 计算全部KV Cache

请求B: systemcontext问题Bsystemcontext部分命中,只计算问题B

关键细节:

  • 缓存以 1 分钟 TTL 过期,5 分钟内未被访问则失效

  • 前缀必须 从开头完全匹配,中间插入或修改任何 token 都会导致缓存断裂

  • 请求间前缀越长、越稳定,命中率越高

3. 典型应用场景

  • 多轮对话:每轮共享之前的对话历史

  • 批量推理:相同的system prompt + 不同问题

  • RAG系统:相同检索上下文 + 不同查询

  • Agent循环:同一prompt模板反复调用

相关推荐
垚森19 小时前
我用 GLM-5.2 造了个炸裂主题后台:16 套主题随心切,可在线体验
ai·react
码哥字节20 小时前
GitHub 今日 +2299 Star,这个工具让 AI 读代码不再像翻字典
ast·claude code·代码知识图谱·understand-anything
doiito1 天前
【Agent Harness】Gliding Horse 工具结果压缩体系:如何用“指针”驯服上下文膨胀
ai·rust·架构设计·系统设计·ai agent
doiito2 天前
【Agent Harness】Gliding Horse 上下文动态感知与智能压缩:让 Agent 真正“听得进”每一句话
ai·rust·架构设计·系统设计·ai agent
探索云原生3 天前
K8s 1.36 这个 GA 特性,把 initContainer 拉模型的 hack 干掉了
ai·云原生·kubernetes
Zy宇3 天前
从养 OpenClaw 到养社区 AI:一套 Multi-Agent 社区的设计思路
人工智能·ai
码哥字节3 天前
204K Star 的 Superpowers,解决了 Claude Code 最隐蔽的工程隐患
claude code·ai编程工具·superpowers
doiito3 天前
【Agent Harness】Gliding Horse 记忆系统深度剖析:像 CPU 一样思考的 AI 记忆架构
ai·rust·架构设计·系统设计·ai agent
张居斜3 天前
Obsidian + Claude Code + 微信AI,我把这三个系统缝进了一个软件
微信·obsidian·claude code·molio
mobility4 天前
免费AI视频生成器:我如何用零成本做出带旁白字幕的多场景AI视频
ai·vibe coding