Agent成本降低46%:缓存规划器的思路模板

论文标题

Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

论文地址

https://arxiv.org/pdf/2506.14852

作者背景

斯坦福大学

动机

大模型能力的飞速进步催收了大量 AI 智能体应用,它们协调多种模型、工具、工作流来解决实际复杂任务。然而在实际应用中,Agent 系统需要反复地调用 LLM,由此产生了显著的成本,如何降低整个流程中的 token 开销是各智能体应用亟待解决的问题

对于常见的 ReAct 架构,规划器通常需要反复阅读冗长的上下文,是整个 Agent 系统中的资源大户,并且它还是系统的核心模块,承担着任务划分、工具理解、信息整合等多项复杂任务,所以在实践中往往需要更贵更强力的大模型(如 GPT 4+)才可胜任,这进一步加剧了项目成本

缓存是减少 LLM 应用服务成本的最常用技术之一,然而尽管规划器经常需要处理相似的查询,但查询条件的细微差异与动态改变的环境使我们无法通过缓存直接复用之前的规划结果,对此作者提出了一种缓存抽象思维的新方法,为规划器提供问题的解决思路,从而降低规划难度,进而使用更便宜的轻量模型代替部分昂贵的强模型调用

本文方法

本文所设计的 Agent 框架如下图所示,它维护了一个专用于规划器的思维模板库。当问题匹配到思维模板的关键词时,便将事先整理好的规划思路放入上下文,然后去调用一个本地部署的轻量 LLM 来生成任务计划;如果当前 query 匹配不上思维模板,则像原始流程一样利用强模型生成任务计划并执行;当任务执行成功后,还会对本次执行日志进行分析,从中提取出关键步骤并移除具体细节信息,得到抽象的思维模板以供未来使用

值得注意的是,作者最终采用了基于关键词的严格匹配而非基于语义的相似度匹配来召回模板,这是因为后者可能过度强调特定的上下文细节(例如个人或公司的名称),而非泛化的查询意图,可能会导致较高的假阳与假阴性率;而基于规则的匹配方法更加可靠,并且成本更低速度更快

缓存抽象的思维模板还带来了一项好处:增强上下文更精简。作者后续也尝试了缓存细节执行过程日志的策略,但当前的轻量 LLM(如 LLaMa-3.2-8B)面对长上下下文时效果会变差

实验结果

作者在涵盖长文本的金融数据 FinanceBench 和表格数学应用题 Tabular Math Word Problems 上进行测试,使用 GPT-4o 作为强模型,本地部署的 LLaMa-3.2-8B 作为轻量模型,然后对比上述架构带来的成本节省与性能变化,实验组设置如下:

  • Accuracy Optimal: 不使用缓存, 所有任务使用强模型来解决;
  • Cost Optimal: 所有任务使用轻量模型解决;
  • Full History Caching: 缓存完整的历史执行日志;
  • Semantic Caching: 使用语义相似度来匹配思维模板;
  • Agentic Plan Caching: 使用关键词来匹配思维模板

可见本文提出的架构设计让系统的 token 成本减半,并且维持了 96.67% 的准确率

相关推荐
TracyCoder1231 小时前
BERT:让模型 “读懂上下文” 的双向语言学习法
人工智能·深度学习·bert
前网易架构师-高司机1 小时前
标注好的胃病识别数据集,可识别食管炎,胃炎,胃出血,健康,息肉,胃溃疡等常见疾病,支持yolo, coco json,pascal voc xml格式的标注
深度学习·yolo·数据集·疾病·胃病·胃炎·胃部
亚马逊云开发者7 小时前
Q CLI 助力合合信息实现 Aurora 的升级运营
人工智能
全栈胖叔叔-瓜州8 小时前
关于llamasharp 大模型多轮对话,模型对话无法终止,或者输出角色标识User:,或者System等角色标识问题。
前端·人工智能
坚果派·白晓明8 小时前
AI驱动的命令行工具集x-cmd鸿蒙化适配后通过DevBox安装使用
人工智能·华为·harmonyos
GISer_Jing8 小时前
前端营销技术实战:数据+AI实战指南
前端·javascript·人工智能
Dekesas96959 小时前
【深度学习】基于Faster R-CNN的黄瓜幼苗智能识别与定位系统,农业AI新突破
人工智能·深度学习·r语言
大佐不会说日语~9 小时前
Spring AI Alibaba 的 ChatClient 工具注册与 Function Calling 实践
人工智能·spring boot·python·spring·封装·spring ai
CeshirenTester9 小时前
Playwright元素定位详解:8种定位策略实战指南
人工智能·功能测试·程序人生·单元测试·自动化
世岩清上10 小时前
AI驱动的智能运维:从自动化到自主化的技术演进与架构革新
运维·人工智能·自动化