主流大模型的Cache机制对比

yaocheng的ai分身2025-07-26 13:25

PromptCaching / ContextCache 区别

Prompt Caching ：站在"计费 + 文本比对"角度------"这段文字我上次已经付费处理过"。
Context / KV Cache ：站在"底层推理加速"角度------"这段 token 的注意力 Key/Value 已经算好，直接拷贝显存"。

两者经常被打包，但并不完全等同：前者可以单独存在于费用层，后者则是深度优化推理流程。

概念	关注点	工作层级	典型叫法
Prompt Caching	"提示词文本" 是否已经付费处理过	计费 / API 层	OpenAI "cached prompt tokens"、DeepSeek "prompt_cache_hit_tokens"
Context (KV) Cache	Transformer 已算好的 Key/Value 表是否能直接复用	推理核心 / GPU 显存层	vLLM "KV‑Cache reuse"、Gemini "context cache"、Anthropic "retrieved cache"

1. Prompt Caching（计费缓存）

判断粒度： 纯文本（token 序列）是否与历史请求前缀 哈希一致。
目的：
- 计费折扣 ------ 同一前缀不重复收钱或少收。
- 省前序推理时间 ------ 服务端跳过对这段文本的 tokenization 和 embedding。
和模型本身无关：即使你用的是不支持 KV cache 的旧模型，厂商仍可在 API 网关层做 Prompt 缓存。
局限： 只能整段命中；你只要改动一个标点就会 MISS。

实际应用：在助手型应用里，一段 "系统指令 + few‑shot 示例" 经常复用，Prompt Caching 能立刻省钱。

2. Context / KV Cache（推理缓存）

判断粒度： Transformer 层每个 token 生成的 Key/Value 向量。
目的：
- 显著降低 GPU 计算量 ------ 后续 token 只需与新输入交互，而不用重复扫老 token。
- 支持超长上下文 ------ KV 存在外部高速缓存或 CPU 内存，避免显存爆炸。
与模型 Serve 框架强绑定：需要 vLLM、Triton 等在后端维护 KV‑Cache 映射；不同 batch 共享。

3. 如何利用两种缓存

目标	做法
省钱（封装 API）	把固定 System/Few‑shot Prompt 提前传，确保格式稳定（别多空格），让 Prompt Cache 命中率 > 90%。
提速（自托管模型）	用 vLLM / TGI 开启 KV Reuse，分批送 token；并在长对话中保留 message‑id，让服务端知道可复用 KV。
可控性	需要明确 TTL 和手动失效，则选支持显式 Context Cache 资源的方案（Gemini、Claude）。OpenAI/Qwen 走隐式策略，无法设 TTL。

主流模型的差异

启用方式、最小缓存阈值、默认 TTL、计费规则、开发者可控性等方面的差异。

模型	启用方式	最小可缓存 tokens	默认 TTL（Time 2 Live）	计费规则（写入 / 命中）	开发者可控点
GPT‑4o / 4.1	自动，只要前缀 > 1024 tokens 即生效	1 024	官方未公开（内部策略）	写入 = 正常价；命中 = ‑75 %（0.5×）	仅统计字段 `cached_tokens`；TTL 不可调
Claude 4 (Opus / Sonnet)	显式 `cache_control` 标记前缀	任意长度	5 min / 1 h 二档	写入 = 1.25× / 2×；命中 = 0.1×	TTL 档位、是否缓存由开发者决定
Gemini 2.5 Pro / Flash	两种： ① 自动（同上阈值） ② 显式创建 cache 资源并引用	Pro = 2 048 Flash = 1 024	60 min，可设更长	写入 = 正常价；命中 = ‑75 %	可创建 / 更新 / 删除 cache；可设 TTL
DeepSeek V3 / R1	自动；64 tokens 为存储块	≥ 64	几小时‑数天，自动清理	写入 = 1 元 / MTok；命中 = ‑90 %（0.1 元）	无 TTL 控制；`prompt_cache_hit_tokens` 计数
Qwen 2.5	自动；内容 < 256 tokens 不缓存	≥ 256	不公开（空闲后自动回收）	命中部分按 0.4× 单价收费	仅展示 `cached_tokens`；TTL 不可调
Grok 4	自动开启，可在控制台关闭	未公开	未公开	命中部分按「Cached prompt tokens」优惠价	只能查看 `usage.cached_prompt_tokens`

上一篇：飞行控制领军者 | 边界智控携高安全级飞控系统亮相2025深圳eVTOL展

下一篇：uniapp之微信小程序标题对其右上角按钮胶囊

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05Linux下V2Ray安装配置指南 06《大数据技术原理与应用》实验报告三熟悉HBase常用操作 07综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 08jdk21下载、安装（Windows、Linux、macOS）092025 最新教程：注册并切换到美区 Apple ID 10智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践