Agent成本降低46%:缓存规划器的思路模板

论文标题

Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

论文地址

https://arxiv.org/pdf/2506.14852

作者背景

斯坦福大学

动机

大模型能力的飞速进步催收了大量 AI 智能体应用,它们协调多种模型、工具、工作流来解决实际复杂任务。然而在实际应用中,Agent 系统需要反复地调用 LLM,由此产生了显著的成本,如何降低整个流程中的 token 开销是各智能体应用亟待解决的问题

对于常见的 ReAct 架构,规划器通常需要反复阅读冗长的上下文,是整个 Agent 系统中的资源大户,并且它还是系统的核心模块,承担着任务划分、工具理解、信息整合等多项复杂任务,所以在实践中往往需要更贵更强力的大模型(如 GPT 4+)才可胜任,这进一步加剧了项目成本

缓存是减少 LLM 应用服务成本的最常用技术之一,然而尽管规划器经常需要处理相似的查询,但查询条件的细微差异与动态改变的环境使我们无法通过缓存直接复用之前的规划结果,对此作者提出了一种缓存抽象思维的新方法,为规划器提供问题的解决思路,从而降低规划难度,进而使用更便宜的轻量模型代替部分昂贵的强模型调用

本文方法

本文所设计的 Agent 框架如下图所示,它维护了一个专用于规划器的思维模板库。当问题匹配到思维模板的关键词时,便将事先整理好的规划思路放入上下文,然后去调用一个本地部署的轻量 LLM 来生成任务计划;如果当前 query 匹配不上思维模板,则像原始流程一样利用强模型生成任务计划并执行;当任务执行成功后,还会对本次执行日志进行分析,从中提取出关键步骤并移除具体细节信息,得到抽象的思维模板以供未来使用

值得注意的是,作者最终采用了基于关键词的严格匹配而非基于语义的相似度匹配来召回模板,这是因为后者可能过度强调特定的上下文细节(例如个人或公司的名称),而非泛化的查询意图,可能会导致较高的假阳与假阴性率;而基于规则的匹配方法更加可靠,并且成本更低速度更快

缓存抽象的思维模板还带来了一项好处:增强上下文更精简。作者后续也尝试了缓存细节执行过程日志的策略,但当前的轻量 LLM(如 LLaMa-3.2-8B)面对长上下下文时效果会变差

实验结果

作者在涵盖长文本的金融数据 FinanceBench 和表格数学应用题 Tabular Math Word Problems 上进行测试,使用 GPT-4o 作为强模型,本地部署的 LLaMa-3.2-8B 作为轻量模型,然后对比上述架构带来的成本节省与性能变化,实验组设置如下:

  • Accuracy Optimal: 不使用缓存, 所有任务使用强模型来解决;
  • Cost Optimal: 所有任务使用轻量模型解决;
  • Full History Caching: 缓存完整的历史执行日志;
  • Semantic Caching: 使用语义相似度来匹配思维模板;
  • Agentic Plan Caching: 使用关键词来匹配思维模板

可见本文提出的架构设计让系统的 token 成本减半,并且维持了 96.67% 的准确率

相关推荐
会飞的老朱2 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
聆风吟º3 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee5 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
陌上丨6 小时前
Redis的Key和Value的设计原则有哪些?
数据库·redis·缓存
聆风吟º6 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys6 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56786 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子6 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能7 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144877 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能