提示词缓存：一个新瓶装旧酒的agent降本手段

数字芯片实验室2026-04-16 8:09

聊AI工具，大家讨论得多的是模型能力、上下文长度、生成质量。

但有一个技术细节被严重低估了：提示词缓存（Prompt Caching）。

大模型处理输入的过程，分为两个阶段：首先是把输入的token"理解"一遍，生成对应的中间表示（通常叫KV Cache）；然后基于这个中间表示，生成输出。

第一个阶段，也就是"理解输入"这个步骤，是计算成本最高的部分，占整体推理成本的大头。

提示词缓存做的事情是：如果这次输入的前面部分和上次完全一样，就复用之前计算好的中间结果，不用重新算。对于重复出现的固定内容，成本可以降到原来的1/10左右。

这个功能对普通的单次对话帮助不大，但对Agent流程来说价值极高。

一个典型的芯片研发流程Agent场景：系统提示里包含项目规范、设计规则、命名约定，加起来可能有几万个token，而且每次调用都不变。如果没有缓存，这部分内容每次都要重新处理一遍；有了缓存，每次只需要处理真正变化的部分------通常只是当前这轮的具体问题。