Claude 3.5 Sonnet API长文本缓存功能！成本降低90%！

Claude最近推出了一项重要更新，即API长文本缓存功能，其成本降低高达90%。

通过这项新功能，用户现在可以让Claude"记住"整本书或整个代码库，无需重复输入内容。

这一改进不仅显著减少了处理长文本的延迟，还极大地节省了成本。

早在今年5月，谷歌在其Gemini更新中就引入了类似的提示词缓存功能，随后国内的Kimi和DeepSeek团队也纷纷跟进。

而如今，这项功能也正式登陆Claude。

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开Claude，目前 WildCard 支持的服务非常齐全！

官网有更详细介绍：WildCard

据Anthropic的推文透露，提示词缓存功能允许用户使用更长、更详细的提示词对模型进行微调，从而提升模型的性能。

提示词缓存的核心优势在于，它允许用户一次性向模型发送大量提示信息，并让模型"记住"这些内容，从而在后续的请求中可以直接复用，避免了重复输入。

这种方式不仅大幅提升了处理效率，还显著降低了成本。

博主Dan Shipper将这一过程比喻为在咖啡馆点单：第一次需要详细说明，但之后只需简单一句"和上次一样"即可完成点单。

不过需要注意的是，缓存的有效期为五分钟，但每次读取缓存时，计时都会被重置，因此在连续提问的情况下无需担心缓存失效。

Claude的官方文档还列出了几个典型的应用场景，特别适合处理代码和长文档。

例如，在对话中使用缓存可以降低长会话的成本和延迟，尤其是那些包含复杂指令或附有文档的会话；

在代码助理场景中，缓存可以帮助改进代码自动补全和问答功能；

在大型文档处理场景中，用户可以在提示中纳入完整的长格式材料，而不会增加响应延迟；

此外，还可以通过共享详细的指令集，在多个对话中微调Claude的响应。

由于不再需要重复输入相同的内容，提示词缓存具备速度更快、成本更低的优势。

例如，在与一本包含10万Tokens的书进行对话时，过去模型生成第一个输出Token需要11.5秒，而启用缓存后只需2.4秒，延迟减少了79%，成本更是降低了90%。

在其他应用场景中，延迟和成本也都有不同程度的下降。

在定价方面，原有的输入和输出Token价格保持不变，而提示词缓存的价格则分为写入和读取两个部分。

最小的Haiku版本每百万Token的写入和读取价格分别为30美分（约人民币两块一）和3美分。

3.5 Sonnet版本则为写入3.75美元，读取0.3美元，最大号的Opus版本则为写入18.75美元，读取1.5美元。

可以看出，初始写入的价格相对较高，但读取的价格仅为重复输入的十分之一。

换句话说，缓存被反复读取的次数越多，节省的成本也就越多。

举个例子，假设要发送1万次请求，重复部分包含1万Tokens，如果不使用缓存，总输入量为1亿Tokens，使用Sonnet需要支付300美元。

但如果启用缓存，仅需支付30.03美元，成本节省了近90%。随着调用次数的增加，成本优势将更加显著。

对于开发者来说，这无疑是一项极具吸引力的更新。AI写作工具HyperWriteAI的创始人兼CEO Matt Shumer对此表示，这一更新意义重大。

它意味着用户可以用更低的成本将整个代码库输入模型，然后要求增加新功能；或者突破一次只能RAG 5个的限制，直接输入大量文档；甚至可以直接提供数百个示例，以获取"比微调更好的结果"。

需要指出的是，这项功能并非Claude的首创。

今年5月，谷歌的Gemini就已经支持了上下文缓存功能。

随后，国内的Kimi和DeepSeek团队也陆续跟进。

值得一提的是，DeepSeek团队还将存储介质换成了硬盘，从而进一步降低了存储成本。

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard