LangGraph 23. 生产环境下智能体如何节约成本:多智能体拆分、提示缓存与查询路由

摘要(Summary) :本文基于生产案例,讨论单体 LangGraph 智能体在长系统提示(约 2 万 token)、大量工具与无缓存 条件下导致的 LLM 成本与延迟 问题,并归纳四类改造:按任务域拆分多智能体Prompt Caching(约 5 分钟窗口)将轻量子任务下沉为调用小模型的工具 、以及 Query Router上下文感知 的查询路由,使问候与轻追问不再进入重型智能体。案例报告成本约降 70%--75%,并补充「何时需要完整智能体、何时不必」的架构取舍。

关键词(Keywords):LangGraph;AI 智能体;LLM 成本优化;多智能体;提示缓存(Prompt Caching);查询路由(Query Router);任务分解;工具调用;模型分层;Claude Sonnet;PostgreSQL checkpoint;生产环境


如果你的 AI 智能体已经上线生产,下文可能帮你砍掉相当大一块成本。

1 一些结论

我们的目标是优化一个基于 LangGraph 构建的 AI 智能体的 LLM 成本。High level 信息如下。

1.1 原始架构

  • 系统依赖单一 AI 智能体,系统提示词2 万 token
  • 智能体基于 LangGraph 构建,底层模型为 Claude Sonnet 4.5
  • 挂载约 30 个工具 ,并使用基于 PostgreSQLcheckpoint 存储(LangGraph 的状态持久化与恢复)。

1.2 核心问题

  • 整条链路绑在一个智能体上:从问候、FAQ,到任务 Alpha(工具与推理密集)、任务 Beta(同样工具与推理密集),全部由同一智能体处理。
  • 系统提示词臃肿:必须把各类任务的指令都塞进同一份 prompt。
  • 没有缓存策略
  • 简单任务 (例如条目结构生成)也由 Claude Sonnet 承担。
  • 总体问题可以概括为:用推土机堆沙堡------能力与成本严重错配。

1.3 采取的优化

通过下列相对基础到中等复杂度的改造,单次操作总成本约节省 70%

  • 拆分 Agent Alpha 与 Agent Gamma(以及后续的 Delta 等,见下文)。
  • 实现提示缓存(Prompt Caching) ,采用 5 分钟滚动窗口(与供应商对「缓存命中」的时间窗策略一致;具体计费以各云文档为准)。
  • 将部分小任务下沉为工具(tools) ,工具内部改用更小、更便宜的模型(例如 Gemini 2.5 Flash)完成。
  • 把系统改为多智能体 + 人工设计的查询路由(manual query routing) :由一次有上下文感知的路由调用决定应调用哪个智能体。
  • 「Hi」 这类用户输入不再进入带着 2 万 token 系统提示 的重型智能体;后续不需要强推理 的追问,也由更便宜的模型侧智能体处理。

4. 可量化结果

  • LLM 成本平均下降约 70%--75%
  • 本应更快的查询,比预期更快

5. 最终架构

最终形态为:路由层 → 多个专用智能体(不同模型与 prompt 体量)→ 按需工具与小模型 。具体拓扑见原文中的 Final Architecture 示意图。


2 深入细节

2,1 问题:单体智能体如何成为瓶颈

当系统要服务多种流程 ,却仍用一个智能体 包揽一切时,这在生产里几乎是红旗信号。下面用我们当时的系统说明。

每条用户查询 都走同一个 Agent 循环。智能体必须带巨大的系统提示词 ,因为要覆盖多种任务类型。只说「Hi」 的消息和 「请执行下列任务」 的消息,被送进同一个 Agent------在生产系统里,这本不该发生

分析后发现:智能体效果不差 ,但花的钱远超合理范围。优化分阶段如下。

(1)按任务域拆分智能体

智能体同时在做 Task AlphaTask Beta ,二者几乎无关、无重叠,却导致:

  • 执行 Task Alpha 时,Task Beta 的指令与工具 仍被加载进上下文,被 LLM 无谓地处理

解法 :拆成两个智能体 ,分别只服务 Task Alpha 与 Task Beta,对外可分别暴露 (或通过路由统一入口)。

改完后,每条路径上的 prompt 与工具集更窄,固定开销显著下降。

(2)提示缓存(Prompt Caching)

拆分后 token 用量仍然偏高,下一步是 Prompt Caching 。这是简单但非常有效 的「省油」手段:多数 LLM 供应商支持在一定时间窗内已处理过的前缀 token 收取更低的费用------例如 2 万 token 的系统提示在 5 分钟内 走了 100 次 ,通常只有首次(或按文档规则)按全价计 ,其余命中缓存时单价大幅下降

改完后拓扑可不变 ,但账单会明显下降 。工程上需关注:缓存键可缓存块的位置 (一般把稳定长前缀放在前部)、以及TTL/滚动窗口与业务会话长度是否匹配。

(3)任务分解 + 小模型进工具

进一步分析发现,部分子任务不需要 Sonnet 4.5 级别 的推理能力。做法是:把这些步骤拆成工具 ,工具实现里调用更小模型完成任务(例如结构化生成、格式转换、轻量分类等)。

补充(工程视角) :「工具内用小模型」本质是 能力分层 :编排仍可由强模型或规则完成,但高吞吐、低认知负荷的步骤固定到便宜模型,避免在 ReAct 循环里每一步都烧最贵档位。

(4)再拆:问候 / FAQ / 支持与「任务后追问」

仍有问题:问候、用户支持、或 Alpha/Beta 完成后的简单追问 ,若仍进入 Agent Alpha 或 Beta,token 与单价依然偏高。

进一步拆分

  • Agent Gamma :专门处理 问候、FAQ、用户支持
  • Agent Delta :专门处理 Task Alpha 完成后的后续追问(轻量、跟随型对话)。

拆智能体本身不难,难在:由谁决定在何时调用哪一个智能体------不可能给每个智能体各做一个独立用户界面。

解法 :实现 Query Router(查询路由器) ------一次单轮(single-shot)、有上下文感知 的 LLM 调用,唯一职责 是:理解当前请求意图,并决定应路由到哪个下游智能体。

Gamma 与 Delta 不需要 复杂图编排,可以选择用类似 Pydantic AI 搭建这类轻量智能体。

将单体改为手工编排的多智能体系统 后,单次请求成本 约再降 75%--80%(相对优化前;与全文「约 70%」为不同口径下的表述,均以原文为准),整体是可观的改进。

补充(与 LangGraph 的关系) :LangGraph 适合有环、有状态、多步工具调用 的复杂工作流;对单轮分类/路由 + 少量结构化输出 ,轻量框架往往更省事。生产上常见做法是 「图编排(重任务)+ 轻量 handler(轻任务)」 混合架构,而不是「所有盒子都用同一种图引擎」。


3 什么时候该用 AI 智能体,什么时候不该

智能体很强,但也贵、复杂、且常被滥用 。最大的架构误区之一,是把每一个 AI 需求都当成「智能体问题」。

在动手前,要先想清楚:智能体到底是什么

3.1 智能体 ≠ 单次 LLM 调用

智能体通常指一套能:

  • 对任务进行推理
  • 决定采取哪些动作
  • 使用工具
  • 维护上下文或状态
  • 执行多步工作流

的系统。

正是这种自主性 带来能力,也带来成本

并非每个问题都需要这一整包能力。


3.2 什么时候你不需要 AI 智能体

许多事可以用更简单、更便宜的方式解决。

  1. 单步变换

    输入 → 输出一步搞定 、无需分支与工具编排时,一次 LLM 调用往往足够。不需要路由、不需要编排、不需要「智能体壳子」------硬套只会增加开销。

  2. 确定性工作流

    若执行步骤事先完全确定,用传统代码或固定 DAG 即可,不必让模型在每一步「再发明一遍流程」。

  3. 结构化操作

    已知 schema 的数据做确定性格式处理,传统代码往往更稳、更便宜;不需要「开放式推理」时,不必上智能体。

  4. 高频、低复杂度请求

    智能体单次请求 overhead 更高。问候、FAQ 等应优先 轻量方案或更小模型;全程走「满配智能体」会急剧放大 token 与费用。


3.3 什么时候你需要 AI 智能体

当任务涉及推理、决策与动态执行时,智能体更有价值。

  1. 多步且相互依赖的工作流

    需要规划与动态调整顺序时,智能体更合适。

  2. 工具使用与编排

    要与多个 API、外部系统交互,并需按需选工具、处理失败与重试时,智能体提供编排能力。

  3. 需要推理链的任务

    无法靠单次 prompt 直接得到可靠答案时,推理循环有助于提高正确率(需在成本与延迟上设上限)。

  4. 输入高度不可预测

    用户意图与所需步骤无法预先穷举时,智能体比固定流程更灵活。


3.4 权衡:能力 vs 成本

智能体带来灵活性,也带来:

  • 更高的 token 用量
  • 更高的 延迟
  • 更复杂的 架构与运维
  • 更难 调试与回归

因此架构选择至关重要。

目标不是「到处都用智能体」,而是只在真正需要自主推理与动态编排的地方使用智能体。

相关推荐
chenglin0161 小时前
智能客服系统
人工智能
轻口味1 小时前
HarmonyOS 6 AI能力实战1:小艺接入openclaw智能体
人工智能·华为·harmonyos
badhope2 小时前
Agent智能体全面深入教程:架构、机制与工程实践
人工智能·python·机器人
用户69371750013842 小时前
实测!Gemma 4 成功跑在安卓手机上:离线 AI 助手终于来了
android·前端·人工智能
海兰2 小时前
使用 Elastic Workflows 监控 Kibana 仪表板访问数据
android·人工智能·elasticsearch·rxjava
陈天伟教授2 小时前
如何选择云端 CI/CD 平台
人工智能·安全·机器学习
jeffsonfu2 小时前
偏差与方差的权衡:深度学习的“中庸之道”
人工智能·深度学习
七夜zippoe2 小时前
OpenClaw TTS 语音合成详解:让 AI 助手开口说话
人工智能·ai·语音合成·tts·openclaw
rm6fEx0Z72 小时前
AUC 与 GAUC:从全局排序到用户内排序的理解
人工智能·算法·机器学习