Agent成本降低46%:缓存规划器的思路模板

论文标题

Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

论文地址

https://arxiv.org/pdf/2506.14852

作者背景

斯坦福大学

动机

大模型能力的飞速进步催收了大量 AI 智能体应用,它们协调多种模型、工具、工作流来解决实际复杂任务。然而在实际应用中,Agent 系统需要反复地调用 LLM,由此产生了显著的成本,如何降低整个流程中的 token 开销是各智能体应用亟待解决的问题

对于常见的 ReAct 架构,规划器通常需要反复阅读冗长的上下文,是整个 Agent 系统中的资源大户,并且它还是系统的核心模块,承担着任务划分、工具理解、信息整合等多项复杂任务,所以在实践中往往需要更贵更强力的大模型(如 GPT 4+)才可胜任,这进一步加剧了项目成本

缓存是减少 LLM 应用服务成本的最常用技术之一,然而尽管规划器经常需要处理相似的查询,但查询条件的细微差异与动态改变的环境使我们无法通过缓存直接复用之前的规划结果,对此作者提出了一种缓存抽象思维的新方法,为规划器提供问题的解决思路,从而降低规划难度,进而使用更便宜的轻量模型代替部分昂贵的强模型调用

本文方法

本文所设计的 Agent 框架如下图所示,它维护了一个专用于规划器的思维模板库。当问题匹配到思维模板的关键词时,便将事先整理好的规划思路放入上下文,然后去调用一个本地部署的轻量 LLM 来生成任务计划;如果当前 query 匹配不上思维模板,则像原始流程一样利用强模型生成任务计划并执行;当任务执行成功后,还会对本次执行日志进行分析,从中提取出关键步骤并移除具体细节信息,得到抽象的思维模板以供未来使用

值得注意的是,作者最终采用了基于关键词的严格匹配而非基于语义的相似度匹配来召回模板,这是因为后者可能过度强调特定的上下文细节(例如个人或公司的名称),而非泛化的查询意图,可能会导致较高的假阳与假阴性率;而基于规则的匹配方法更加可靠,并且成本更低速度更快

缓存抽象的思维模板还带来了一项好处:增强上下文更精简。作者后续也尝试了缓存细节执行过程日志的策略,但当前的轻量 LLM(如 LLaMa-3.2-8B)面对长上下下文时效果会变差

实验结果

作者在涵盖长文本的金融数据 FinanceBench 和表格数学应用题 Tabular Math Word Problems 上进行测试,使用 GPT-4o 作为强模型,本地部署的 LLaMa-3.2-8B 作为轻量模型,然后对比上述架构带来的成本节省与性能变化,实验组设置如下:

  • Accuracy Optimal: 不使用缓存, 所有任务使用强模型来解决;
  • Cost Optimal: 所有任务使用轻量模型解决;
  • Full History Caching: 缓存完整的历史执行日志;
  • Semantic Caching: 使用语义相似度来匹配思维模板;
  • Agentic Plan Caching: 使用关键词来匹配思维模板

可见本文提出的架构设计让系统的 token 成本减半,并且维持了 96.67% 的准确率

相关推荐
数据与人工智能律师2 分钟前
数字迷雾中的安全锚点:解码匿名化与假名化的法律边界与商业价值
大数据·网络·人工智能·云计算·区块链
chenchihwen3 分钟前
大模型应用班-第2课 DeepSeek使用与提示词工程课程重点 学习ollama 安装 用deepseek-r1:1.5b 分析PDF 内容
人工智能·学习
说私域12 分钟前
公域流量向私域流量转化策略研究——基于开源AI智能客服、AI智能名片与S2B2C商城小程序的融合应用
人工智能·小程序
Java樱木25 分钟前
AI 编程工具 Trae 重要的升级。。。
人工智能
码字的字节26 分钟前
深度学习损失函数的设计哲学:从交叉熵到Huber损失的深入探索
深度学习·交叉熵·huber
凪卄12131 小时前
图像预处理 二
人工智能·python·深度学习·计算机视觉·pycharm
巫婆理发2221 小时前
强化学习(第三课第三周)
python·机器学习·深度神经网络
碳酸的唐1 小时前
Inception网络架构:深度学习视觉模型的里程碑
网络·深度学习·架构
AI赋能1 小时前
自动驾驶训练-tub详解
人工智能·深度学习·自动驾驶
seasonsyy1 小时前
1.安装anaconda详细步骤(含安装截图)
python·深度学习·环境配置