聊AI工具,大家讨论得多的是模型能力、上下文长度、生成质量。
但有一个技术细节被严重低估了:提示词缓存(Prompt Caching)。
大模型处理输入的过程,分为两个阶段:首先是把输入的token"理解"一遍,生成对应的中间表示(通常叫KV Cache);然后基于这个中间表示,生成输出。
第一个阶段,也就是"理解输入"这个步骤,是计算成本最高的部分,占整体推理成本的大头。
提示词缓存做的事情是:如果这次输入的前面部分和上次完全一样,就复用之前计算好的中间结果,不用重新算。对于重复出现的固定内容,成本可以降到原来的1/10左右。
这个功能对普通的单次对话帮助不大,但对Agent流程来说价值极高。
一个典型的芯片研发流程Agent场景:系统提示里包含项目规范、设计规则、命名约定,加起来可能有几万个token,而且每次调用都不变。如果没有缓存,这部分内容每次都要重新处理一遍;有了缓存,每次只需要处理真正变化的部分------通常只是当前这轮的具体问题。