【以claude code和CodeX引发的缓存技术思考】商业软件的差异化壁垒—— 提示缓存协议（一）prompt caching基础设计和协议黑盒方案

动机

claude code网上解读狠多，思路方向都比较全，AI时代代码和信息密度都太大了，但是决策力、判断力、创新力、深度思考是我们更需要关注的，这里不讲千篇一律，让我们深挖细节，还是那句话想法和思路终归是纸上谈兵，AI 帮你coding也不一定是事半功倍，因为大模型经常会把简单代码复杂化，所以你需要深度掌握每一个细节去完全驾驭，以此核心开讲本系列差异化解读，简单来说你看懂了长篇大论的概念理解，也有一个ai coding你真的能复刻一个完整的等价Claude code 设计的agent harness嘛？以此为动机笔者在清明假期，对着CC用vibe coidng方式+harness 理念重构了一套，但是在此过程中，我发现了一些很有趣的事情------高级缓存协议。

再结合近期codex\cursor等软件也提到过这个，我才发现其实好的Agent 软件一定是模型端、推理端具备深度绑定的。

商业角度来说这种技术是非常有价值的，就是大家经常看到的"高级缓存命中"。CODEX、cursor都在不同程度实现了这个协议，但是目前还是CC、codex是能从源码和博客推敲出他们实现度是最好的，本章从基础到进阶，从前缀命中到高级缓存协议进行快速讲解。

文章目录

动机
一、前缀缓存命中是什么？
- [这个机制需要你的模型推理测，支持kv cc 的缓存命中，目前如VLLM开源框架都默认支持。](#这个机制需要你的模型推理测，支持kv cc 的缓存命中，目前如VLLM开源框架都默认支持。)
[二、为什么要做Kvcache 命中？](#二、为什么要做Kvcache 命中？)
- [接下来，自然就是在实际的复杂agent环境中，你的上下文前缀跟每一个Agent设计是强相关的，也就是很难保证你的前缀一定稳定，因为涉及到工具、压缩等各种各种Runtime的变更信息来影响，agent越复杂这种情况越常见，因此在claude code源码泄露之前，关于这类型问题基本上网上并没有完整系统化的解决方案。](#接下来，自然就是在实际的复杂agent环境中，你的上下文前缀跟每一个Agent设计是强相关的，也就是很难保证你的前缀一定稳定，因为涉及到工具、压缩等各种各种Runtime的变更信息来影响，agent越复杂这种情况越常见，因此在claude code源码泄露之前，关于这类型问题基本上网上并没有完整系统化的解决方案。)
三、为什么前缀缓存并不稳定
- 思考以下：
[四 cluade code 前缀稳定性解决方案（缓存协议）](#四 cluade code 前缀稳定性解决方案（缓存协议）)
- [4.1 基础前提：明确"前缀"的定义与拆分](#4.1 基础前提：明确“前缀”的定义与拆分)
- [4.2 核心准备：将输入标准化，避免"语义同、字节异"](#4.2 核心准备：将输入标准化，避免“语义同、字节异”)
三、关键设计：定义合理的缓存键（前缀身份标识）
四、优化手段：将请求分块，提升缓存复用率
五、规则定义：明确缓存策略（时效、范围、淘汰机制）
六、如何解决工具信息变化引起的前缀缓存失效
- - - [example------有的工程师会有上下文膨胀的管理意识，因此他们会选择动态加载工具，这样你的提示词schema就不会全都堆在system promt里，来达到瘦身的目的，但是：](#example——有的工程师会有上下文膨胀的管理意识，因此他们会选择动态加载工具，这样你的提示词schema就不会全都堆在system promt里，来达到瘦身的目的，但是：)
[七、工具结果长输出处理（重点下篇单讲）](#七、工具结果长输出处理（重点下篇单讲）)
- - - example
八、高级原则：增量更新不重写旧正文
九、分支场景：确保多分支共享统一前缀表面
十、观测体系：缓存不是"开了就完了"，需可观测
十一、故障诊断：不止关注未命中，还要做断裂归因
十二、流程顺序
十三、完成度判断标准
[重点------推理模型服务端到底怎么处理 cache_control 语义并确定边界？](#重点——推理模型服务端到底怎么处理 cache_control 语义并确定边界？)
- [服务端Cache Control边界确定流程](#服务端Cache Control边界确定流程)
- 关键设计原则

在了解提示缓存协议之前，我们需要知道提示缓存命中的基本用处。

一、前缀缓存命中是什么？

前缀缓存的核心目的，是通过缓存请求中"重复度高、变化慢"的部分，降低系统开销、提升响应速度，其通用设计可梳理为清晰的工程链

可视化理解：

第一次请求（全量处理）