Agent成本降低46%:缓存规划器的思路模板

论文标题

Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

论文地址

https://arxiv.org/pdf/2506.14852

作者背景

斯坦福大学

动机

大模型能力的飞速进步催收了大量 AI 智能体应用,它们协调多种模型、工具、工作流来解决实际复杂任务。然而在实际应用中,Agent 系统需要反复地调用 LLM,由此产生了显著的成本,如何降低整个流程中的 token 开销是各智能体应用亟待解决的问题

对于常见的 ReAct 架构,规划器通常需要反复阅读冗长的上下文,是整个 Agent 系统中的资源大户,并且它还是系统的核心模块,承担着任务划分、工具理解、信息整合等多项复杂任务,所以在实践中往往需要更贵更强力的大模型(如 GPT 4+)才可胜任,这进一步加剧了项目成本

缓存是减少 LLM 应用服务成本的最常用技术之一,然而尽管规划器经常需要处理相似的查询,但查询条件的细微差异与动态改变的环境使我们无法通过缓存直接复用之前的规划结果,对此作者提出了一种缓存抽象思维的新方法,为规划器提供问题的解决思路,从而降低规划难度,进而使用更便宜的轻量模型代替部分昂贵的强模型调用

本文方法

本文所设计的 Agent 框架如下图所示,它维护了一个专用于规划器的思维模板库。当问题匹配到思维模板的关键词时,便将事先整理好的规划思路放入上下文,然后去调用一个本地部署的轻量 LLM 来生成任务计划;如果当前 query 匹配不上思维模板,则像原始流程一样利用强模型生成任务计划并执行;当任务执行成功后,还会对本次执行日志进行分析,从中提取出关键步骤并移除具体细节信息,得到抽象的思维模板以供未来使用

值得注意的是,作者最终采用了基于关键词的严格匹配而非基于语义的相似度匹配来召回模板,这是因为后者可能过度强调特定的上下文细节(例如个人或公司的名称),而非泛化的查询意图,可能会导致较高的假阳与假阴性率;而基于规则的匹配方法更加可靠,并且成本更低速度更快

缓存抽象的思维模板还带来了一项好处:增强上下文更精简。作者后续也尝试了缓存细节执行过程日志的策略,但当前的轻量 LLM(如 LLaMa-3.2-8B)面对长上下下文时效果会变差

实验结果

作者在涵盖长文本的金融数据 FinanceBench 和表格数学应用题 Tabular Math Word Problems 上进行测试,使用 GPT-4o 作为强模型,本地部署的 LLaMa-3.2-8B 作为轻量模型,然后对比上述架构带来的成本节省与性能变化,实验组设置如下:

  • Accuracy Optimal: 不使用缓存, 所有任务使用强模型来解决;
  • Cost Optimal: 所有任务使用轻量模型解决;
  • Full History Caching: 缓存完整的历史执行日志;
  • Semantic Caching: 使用语义相似度来匹配思维模板;
  • Agentic Plan Caching: 使用关键词来匹配思维模板

可见本文提出的架构设计让系统的 token 成本减半,并且维持了 96.67% 的准确率

相关推荐
Peter·Pan爱编程1 天前
第二篇:为什么现在是 Vibe Coding 的元年?风险与挑战
人工智能·ai编程
jinanwuhuaguo1 天前
(第二十九篇)OpenClaw 实时与具身的跃迁——从异步孤岛到数字世界的“原住民”
前端·网络·人工智能·重构·openclaw
大飞记Python1 天前
【2026更新】Python基础学习指南(AI版)——04数据类型
开发语言·人工智能·python
Marvel__Dead1 天前
AI 大模型时代:验证码如何用「通用识别」解决?
人工智能·ai 大模型·ai 验证码识别·ai 爬虫
生成论实验室1 天前
《事件关系阴阳博弈动力学:识势应势之道》第四篇:降U动力学——认知确定度的自驱演化
人工智能·科技·神经网络·算法·架构
不懂的浪漫1 天前
把 AI Skill 做成系统:路由、领域技能、自我复盘和进化飞轮
人工智能·ai·skill
等风来不如迎风去1 天前
【win11】最佳性能:fix 没有壁纸,一直黑屏
网络·人工智能
AI科技星1 天前
全域数学·72分册:场计算机卷【乖乖数学】
算法·机器学习·数学建模·数据挖掘·量子计算
云云只是个程序马喽1 天前
AI漫剧创作系统开发定制指南
人工智能·小程序·php
Elastic 中国社区官方博客1 天前
Elastic 和 Cursor 合作 加速 上下文工程 与 coding agents
大数据·人工智能·elasticsearch·搜索引擎·全文检索