什么是前缀缓存,缓存命中

在使用deepseek V4时,我们会发现调用API时的价格描述中分为了缓存命中和未命中两类,那么什么是缓存命中呢?

1. 基本概念

前缀缓存(Prefix Caching / KV Cache Reuse)

大模型推理时,每个token都要计算Key和Value向量,存入KV Cache。当多次请求共享相同的输入前缀(如system prompt、few-shot示例),这些前缀对应的KV Cache可以被复用,不必重复计算。

缓存命中(Cache Hit)

当新请求的前缀与缓存中已有的前缀匹配时,称为"命中",直接加载已有的KV Cache,跳过这部分的计算。未匹配则"未命中"(Cache Miss),需要重新计算。

2. 工作原理

请求A: [system][context][问题A] → 计算全部KV Cache

请求B: [system][context][问题B] → [system][context]部分命中,只计算[问题B]

关键细节:

  • 缓存以 1 分钟 TTL 过期,5 分钟内未被访问则失效

  • 前缀必须 从开头完全匹配,中间插入或修改任何 token 都会导致缓存断裂

  • 请求间前缀越长、越稳定,命中率越高

3. 典型应用场景

  • 多轮对话:每轮共享之前的对话历史

  • 批量推理:相同的system prompt + 不同问题

  • RAG系统:相同检索上下文 + 不同查询

  • Agent循环:同一prompt模板反复调用

相关推荐
闵孚龙1 小时前
Claude Code Prompt Cache 缓存中断检测系统全解析:AI Agent 上下文工程、可观测性、成本优化与性能治理
人工智能·缓存·prompt
声声codeGrandMaster1 小时前
seq2seq概念和数据集处理
人工智能·pytorch·python·算法·ai
努力努力再努力wz1 小时前
【Redis入门系列】Redis基础命令详解:从客户端连接到数据读写、key 管理与过期机制
c语言·开发语言·数据结构·数据库·c++·redis·缓存
兮山与1 小时前
SpringAI3.0
ai
一切皆是因缘际会1 小时前
AI产业发展全景解析:技术突破、行业落地与未来展望
人工智能·深度学习·机器学习·ai·架构
西京刀客1 小时前
redis 大key使用 UNLINK 命令删除、Redis Set / ZSet 存储上限、ZRemRangeByRank命令
数据库·redis·缓存
kali_yao2 小时前
agent长时间沟通后变慢和卡住问题解决
ai
闲人编程2 小时前
Agent的安全边界:如何防止AI失控(对齐问题)
网络·python·ai·agent·权限·智能体·cai
西洼工作室2 小时前
缓存工具类封装:内存与Redis无缝切换
redis·python·缓存·全栈