Token 统计中的“命中缓存”和“未命中缓存”是什么意思？

Token 统计中的"命中缓存"和"未命中缓存"是什么意思？

在使用大模型、Codex、ChatGPT API 或一些 AI 编程工具时，我们经常会看到类似这样的 Token 统计：

输入（命中缓存）
输入（未命中缓存）
输出

很多人第一次看到这些指标时，会觉得比较抽象。其实它们本质上是在说明：这一次模型调用中，哪些内容是模型需要重新处理的，哪些内容是可以复用历史计算结果的，以及模型最终生成了多少新内容。

一、先理解什么是 Token

Token 可以简单理解为模型处理文本时的基本单位。

它不完全等于"字"或"词"。对于中文来说，一个汉字、一个词语，甚至一段标点组合，都可能被切分成不同数量的 Token；对于英文来说，一个单词也可能被拆成多个 Token。

在大模型系统中，无论是用户输入的问题、系统提示词、历史对话、上传的文件内容，还是模型最终生成的回答，都会被转换成 Token 后再进行处理。

所以我们看到的 Token 统计，本质上就是模型这次处理了多少文本信息。

二、输入 Token 和输出 Token 的区别

一次模型调用通常可以分成两部分：输入和输出。

输入 Token 指的是你发送给模型的内容，包括：

你的问题
系统提示词
历史对话
项目代码
文档内容
工具返回结果
其他上下文信息

输出 Token 指的是模型生成回答时产生的新内容。

例如你问模型：

请解释一下 Node.js 是什么？

这句话就是输入的一部分。

模型回答：

Node.js 是一个让 JavaScript 可以在浏览器之外运行的环境。

这句话就是输出的一部分。

因此，输入 Token 代表模型"读进去"的内容，输出 Token 代表模型"写出来"的内容。

三、什么是"输入（命中缓存）"

"输入（命中缓存）"指的是：这部分输入内容之前已经被模型处理过，这次请求中又出现了相同或高度一致的前缀内容，因此系统可以复用之前的计算结果。

可以把它理解成浏览器缓存或电脑缓存：

第一次打开一个网页时，浏览器需要完整加载图片、脚本和样式文件；第二次再打开同一个网页时，如果内容没有变化，浏览器就可以直接复用一部分缓存资源，从而加载更快。

大模型中的缓存也是类似逻辑。

例如你在一个项目中反复使用 Codex：

第一次请求：

text 复制代码

项目代码 + README + 历史上下文 + 问题 A

第二次请求：

text 复制代码

项目代码 + README + 历史上下文 + 问题 B

如果前面的"项目代码 + README + 历史上下文"没有变化，那么这部分内容就有机会命中缓存。模型不需要每次都从头重新处理这些相同内容，只需要重点处理后面新增的问题。

所以，"命中缓存"表示：系统成功复用了之前已经处理过的输入内容。

四、什么是"输入（未命中缓存）"

"输入（未命中缓存）"指的是：这部分内容是新的，或者和之前请求的内容不一致，因此模型必须重新处理。

常见的未命中缓存情况包括：

第一，第一次发送某段内容。

如果模型之前从未处理过这段文本，那么它自然没有缓存可以复用。

第二，输入内容发生了变化。

例如你修改了提示词、调整了文件内容、改变了上下文顺序，或者在前面插入了一段新内容，都可能导致缓存无法完全命中。

第三，变化发生在输入的开头位置。

缓存通常更依赖"前缀匹配"。如果请求开头的内容发生变化，那么后面即使有很多相同内容，也可能无法很好复用缓存。

第四，缓存已经失效。

缓存通常不是永久保存的。如果隔了较长时间不再使用，之前的缓存可能会过期。

因此，"未命中缓存"可以理解为：模型这次需要重新阅读和计算的输入内容。

五、结合示例数据理解

假设某一天的 Token 统计如下：

text 复制代码

输入（命中缓存）：423,808 tokens
输入（未命中缓存）：28,647 tokens
输出：3,812 tokens
总计：456,267 tokens

这个数据说明：

当天总共处理了 456,267 个 Token。

其中，423,808 个 Token 属于输入缓存命中。这意味着这些内容大概率是重复出现的上下文，例如项目代码、历史对话、固定提示词或相同文档内容。

28,647 个 Token 属于输入未命中缓存。这部分是模型需要重新处理的新内容。

3,812 个 Token 是模型生成的回答内容。

从比例上看，输入命中缓存占了绝大部分，这说明这个使用场景中存在大量重复上下文，而且系统成功复用了这些重复内容。

这在 AI 编程、长文档分析、持续对话、同一项目多轮修改等场景中非常常见。

六、为什么命中缓存很重要

命中缓存有几个明显好处。

首先，它可以减少重复计算。

如果每次请求都要重新处理完整项目代码或长文档，模型的计算压力会非常大。缓存可以让系统复用之前处理过的部分，提高整体效率。

其次，它可能降低响应延迟。

重复内容被缓存后，模型不需要从头处理全部上下文，请求响应速度可能会更快。

再次，它通常有助于降低成本。

在很多 API 计费场景中，缓存命中的输入 Token 价格可能低于未命中的输入 Token。因此，合理利用缓存可以让长上下文应用更加经济。

最后，它能让长上下文工作流更稳定。

例如在 Codex 中分析同一个代码仓库时，大量项目背景信息会反复出现。如果这些内容能命中缓存，就可以让多轮交互更加高效。

七、如何提高缓存命中率

想要提高缓存命中率，可以注意以下几点。

第一，保持固定内容放在前面。

例如系统提示词、项目说明、固定规则、背景资料等，如果经常复用，尽量放在输入前部，并保持顺序稳定。

第二，不要频繁改动开头部分。

因为缓存通常依赖前缀匹配。如果每次都在最前面插入新内容，可能会破坏缓存命中。

第三，保持提示词结构稳定。

比如每次都使用相同的模板：

text 复制代码

背景信息
项目代码
任务要求
本次问题

而不是每次都随机调整顺序。

第四，把变化内容放在后面。

每次新提问、新需求、新修改点，尽量放在固定上下文之后。这样前面的固定内容更容易复用缓存。

第五，同一个项目尽量保持连续对话。

如果频繁新开对话、频繁更换上下文结构，缓存命中效果可能会下降。

八、一个生活化类比

可以把模型处理上下文想象成老师批改作业。

第一次你交了一份很长的项目说明，老师需要完整阅读。

第二次你又交了同一个项目，只是换了一个新问题。如果前面的项目说明完全一样，老师就不需要重新从头读一遍，只需要回忆之前已经读过的内容，然后重点看你的新问题。

这就是"命中缓存"。

如果你第二次把项目说明改了很多，或者重新调整了结构，老师就需要重新阅读和理解。

这就是"未命中缓存"。

九、总结

Token 统计中的三个指标可以这样理解：

text 复制代码

输入（命中缓存）：以前处理过，这次成功复用的输入内容。
输入（未命中缓存）：新的或发生变化的输入内容，需要重新处理。
输出：模型本次生成的回答内容。

对于普通用户来说，不需要过度关注每一个 Token 的精确含义，但理解这三个指标很有帮助。

它可以帮助我们判断：

当前任务是不是用了很多上下文
是否存在大量重复内容
缓存复用效果是否明显
为什么某些长上下文任务消耗较高
如何优化提示词和项目对话结构

一句话总结：

命中缓存代表"以前算过，这次复用"；未命中缓存代表"新的内容，需要重新算"；输出代表"模型这次生成的新回答"。

在 AI 编程、文档分析、长上下文对话中，缓存命中是一个非常重要的效率优化机制。理解它，可以帮助我们更好地使用大模型，也能更清楚地看懂平台中的 Token 消耗统计。