技术栈
llm 优化,工具集设计
前端摸鱼匠
3 小时前
ai agent
·
prompt caching
·
llm 优化,工具集设计
提示词缓存命中率翻倍,面向缓存设计你的工具集
很多资深工程师在构建 AI Agent 时,都经历过这样的困惑:明明代码逻辑没变,工具也还是那些工具,但随着会话进行,Token 消耗却像滚雪球一样失控,响应速度也越来越慢。我们习惯性地认为这是模型变“笨”了,或者是上下文太长导致的,于是拼命优化 RAG、压缩历史对话,却往往收效甚微。
我是有底线的