Claude 3.5 Sonnet API长文本缓存功能!成本降低90%!

Claude最近推出了一项重要更新,即API长文本缓存功能,其成本降低高达90%。

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册文章浏览阅读4.5k次,点赞54次,收藏36次。Claude 3.5 Sonnet 在研究生水平的推理 (GPQA)、本科生水平的知识 (MMLU) 和编码能力 (HumanEval) 方面树立了新的行业标杆。它在理解细微差别、幽默感和复杂指令方面有显著进步,并且能够以自然、亲切的语气撰写高质量内容,表现尤为出色。尤其值得一提的是,Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。此外,在一次内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,明显超过 Claude 3 O_claude 3.5 sonnet 注册https://blog.csdn.net/ElevenSakura/article/details/140304461

通过这项新功能,用户现在可以让Claude"记住"整本书或整个代码库,无需重复输入内容。

这一改进不仅显著减少了处理长文本的延迟,还极大地节省了成本。

早在今年5月,谷歌在其Gemini更新中就引入了类似的提示词缓存功能,随后国内的Kimi和DeepSeek团队也纷纷跟进。

而如今,这项功能也正式登陆Claude。

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开Claude,目前 WildCard 支持的服务非常齐全!

官网有更详细介绍:WildCard

据Anthropic的推文透露,提示词缓存功能允许用户使用更长、更详细的提示词对模型进行微调,从而提升模型的性能。

提示词缓存的核心优势在于,它允许用户一次性向模型发送大量提示信息,并让模型"记住"这些内容,从而在后续的请求中可以直接复用,避免了重复输入。

这种方式不仅大幅提升了处理效率,还显著降低了成本。

博主Dan Shipper将这一过程比喻为在咖啡馆点单:第一次需要详细说明,但之后只需简单一句"和上次一样"即可完成点单。

不过需要注意的是,缓存的有效期为五分钟,但每次读取缓存时,计时都会被重置,因此在连续提问的情况下无需担心缓存失效。

Claude的官方文档还列出了几个典型的应用场景,特别适合处理代码和长文档。

例如,在对话中使用缓存可以降低长会话的成本和延迟,尤其是那些包含复杂指令或附有文档的会话;

在代码助理场景中,缓存可以帮助改进代码自动补全和问答功能;

在大型文档处理场景中,用户可以在提示中纳入完整的长格式材料,而不会增加响应延迟;

此外,还可以通过共享详细的指令集,在多个对话中微调Claude的响应。

由于不再需要重复输入相同的内容,提示词缓存具备速度更快、成本更低的优势。

例如,在与一本包含10万Tokens的书进行对话时,过去模型生成第一个输出Token需要11.5秒,而启用缓存后只需2.4秒,延迟减少了79%,成本更是降低了90%。

在其他应用场景中,延迟和成本也都有不同程度的下降。

定价方面,原有的输入和输出Token价格保持不变,而提示词缓存的价格则分为写入和读取两个部分。

最小的Haiku版本每百万Token的写入和读取价格分别为30美分(约人民币两块一)和3美分。

3.5 Sonnet版本则为写入3.75美元,读取0.3美元,最大号的Opus版本则为写入18.75美元,读取1.5美元。

可以看出,初始写入的价格相对较高,但读取的价格仅为重复输入的十分之一。

换句话说,缓存被反复读取的次数越多,节省的成本也就越多。

举个例子,假设要发送1万次请求,重复部分包含1万Tokens,如果不使用缓存,总输入量为1亿Tokens,使用Sonnet需要支付300美元。

但如果启用缓存,仅需支付30.03美元,成本节省了近90%。随着调用次数的增加,成本优势将更加显著。

对于开发者来说,这无疑是一项极具吸引力的更新。AI写作工具HyperWriteAI的创始人兼CEO Matt Shumer对此表示,这一更新意义重大。

它意味着用户可以用更低的成本将整个代码库输入模型,然后要求增加新功能;或者突破一次只能RAG 5个的限制,直接输入大量文档;甚至可以直接提供数百个示例,以获取"比微调更好的结果"。

需要指出的是,这项功能并非Claude的首创。

今年5月,谷歌的Gemini就已经支持了上下文缓存功能。

随后,国内的Kimi和DeepSeek团队也陆续跟进。

值得一提的是,DeepSeek团队还将存储介质换成了硬盘,从而进一步降低了存储成本。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

Claude 3.5 Sonnet引入了LaTeX公式渲染功能!!

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册

相关推荐
工业互联网专业1 分钟前
Python毕业设计选题:基于python的酒店推荐系统_django+hadoop
hadoop·python·django·vue·毕业设计·源码·课程设计
martian6653 分钟前
【人工智能离散数学基础】——深入详解数理逻辑:理解基础逻辑概念,支持推理和决策系统
人工智能·数理逻辑·推理·决策系统
Schwertlilien4 分钟前
图像处理-Ch7-图像金字塔和其他变换
图像处理·人工智能
唐叔在学习7 分钟前
【唐叔学算法】第18天:解密选择排序的双重魅力-直接选择排序与堆排序的Java实现及性能剖析
数据结构·算法·排序算法
任小永的博客7 分钟前
VUE3+django接口自动化部署平台部署说明文档(使用说明,需要私信)
后端·python·django
凡人的AI工具箱10 分钟前
每天40分玩转Django:Django类视图
数据库·人工智能·后端·python·django·sqlite
余生H13 分钟前
前端Python应用指南(三)Django vs Flask:哪种框架适合构建你的下一个Web应用?
前端·python·django
千天夜16 分钟前
深度学习中的残差网络、加权残差连接(WRC)与跨阶段部分连接(CSP)详解
网络·人工智能·深度学习·神经网络·yolo·机器学习
凡人的AI工具箱20 分钟前
每天40分玩转Django:实操图片分享社区
数据库·人工智能·后端·python·django
小军军军军军军24 分钟前
MLU运行Stable Diffusion WebUI Forge【flux】
人工智能·python·语言模型·stable diffusion