LangGraph多Agent踩坑实录：不是每个Agent都需要大模型

上周央视报道了企业里AI Agent落地的新闻，其中提到重庆有企业用三类Agent组成"AI超级团队"，重构开发流程。看到这个的时候，我正对着自己那台4核8G的云服务器发呆------我的选股助手项目也在用类似的多Agent架构，只不过跑在一台配置寒酸的服务器上，折腾了快两个月。

我想聊聊这个过程。

为什么选股需要多Agent

做A股的人都知道，选股是个需要综合判断的事。你要看基本面------营收增长、ROE、负债率；要看技术面------均线排列、MACD、成交量异动；还得看市场情绪------新闻舆情、资金流向。这些维度说实话，单个模型很难同时搞定。

所以我决定用多Agent分工：基本面Agent管财务指标解读，技术面Agent管指标计算，舆情Agent管情绪分析，最后一个决策协调Agent综合各方意见给建议。

这个设计思路其实和企业级Agent落地是一个逻辑。据央视报道，深圳那边有AI营销智能体覆盖约3000个项目，靠的也是多个专业Agent协作。看起来分工明确、各司其职很美好，但真正搭起来之后我才发现，坑比想象中多得多。

第一个坑：不是所有Agent都需要大模型

最开始我犯了个低级错误------所有Agent都调用大模型。基本面的财务指标让DeepSeek读，技术面的MACD计算也让DeepSeek算，舆情分析还是DeepSeek。

结果账单出来的时候我傻了。技术面计算那部分，每天查询几十次股票数据，每次都调一遍API，算出来的MACD值其实就是几行加减乘除。这不是杀鸡用牛刀，这是杀鸡用屠龙刀还要按屠龙刀的价格收费。

我后来把技术面Agent改成了纯代码计算。用ta-lib库直接算，技术指标秒出结果，完全不花钱调用API。改动很小，但成本直接降了一个数量级。

这个经验后来在掘金上看到有人提过------多智能体系统里，小模型能搞定的事情就别上大模型。省下来的token可以喂给真正需要推理的部分。

python 复制代码

# 改写前的技术面Agent（烧钱版）
def technical_agent(stock_code):
    prompt = f"请计算{stock_code}的MACD指标，返回金叉还是死叉"
    result = llm.invoke(prompt)
    return result

# 改写后的技术面Agent（省钱版）
def technical_agent(stock_code):
    import talib
    import numpy as np

    # 获取历史数据
    prices = get_historical_prices(stock_code)
    close_prices = np.array(prices['close'])

    # 直接用ta-lib计算MACD
    macd, signal, hist = talib.MACD(close_prices, fastperiod=12, slowperiod=26, signalperiod=9)

    # 判断金叉死叉
    if len(macd) < 2:
        return "数据不足"

    if macd[-1] > signal[-1] and macd[-2] <= signal[-2]:
        return "金叉"
    elif macd[-1] < signal[-1] and macd[-2] >= signal[-2]:
        return "死叉"
    else:
        return "横盘"

改完之后我才意识到，多Agent系统的设计关键不是"让AI做什么"，而是"让AI做它真正擅长的部分"。计算型任务交给代码，推理型任务交给大模型，这个分工原则说起来简单，但刚开始写代码的时候脑子转不过来。

第二个坑：Agent之间的对话像个黑箱子

多Agent跑起来之后，另一个头疼的问题出现了：Agent之间的信息传递经常出问题。

基本面Agent说"这股票ROE不错"，技术面Agent说"均线多头排列"，舆情Agent说"最近有利好消息"。决策协调Agent拿到这三个结论的时候，问题来了------它的输入格式完全不统一。有时候是"建议买入"这样的结论，有时候是"ROE为15%"这样的数据，有时候又是"市场情绪偏多"这样的判断。

协调Agent拿到这些之后，经常会困惑，不知道该怎么整合。后来我强制要求每个Agent输出固定格式的JSON，必须包含signal（多/空/中性）、confidence（置信度0-1）、reason（简要理由）三个字段。

这个改动看起来简单，但让我debug了很久。LangGraph里Agent之间通过State传递数据，State的格式如果不统一，某一个节点的输出就可能把后续节点的逻辑搅乱。有个晚上我盯着日志看了两个小时，就为了搞清楚为什么协调Agent偶尔会输出乱码。最后发现是舆情Agent情绪分析的时候，返回的JSON里嵌套了一层多余的引号字符串。

python 复制代码

# 错误的输出格式（让后续Agent解析失败）
def sentiment_agent(state):
    return {
        "analysis": '{"signal": "多", "reason": "利好消息较多"}'  # 字符串里套JSON字符串
    }

# 正确的输出格式
def sentiment_agent(state):
    return {
        "analysis": {
            "signal": "多",
            "confidence": 0.75,
            "reason": "利好消息较多"
        }
    }

LangGraph的State设计本身是好的，但用起来你会发现，多Agent之间的状态管理比单Agent复杂得多。每个Agent都要严格遵守约定的数据格式，稍微有一点偏差，系统就会在某个意想不到的地方报错。

第三个坑：多空辩论的Token消耗像个无底洞

我的决策协调Agent设计了一个多空辩论机制------让正面Agent和负面Agent各自陈述观点，然后综合判断。这个设计听起来很合理，但实际上Token消耗远超预期。

一次完整的辩论流程，正面说一遍、负面说一遍、协调Agent总结一遍，三次大模型调用。每一轮对话还要带上之前的上下文，Token几乎是线性增长的。一开始我设置了最多5轮辩论，跑了几次之后发现，光是多空辩论这一个环节，一次查询就要烧掉好几块钱的Token。

后来我做了几个调整：第一，技术面、基本面、舆情三个Agent的输出先压缩成摘要，再喂给辩论环节；第二，辩论轮数从5轮砍到2轮；第三，明确终止条件------如果前两轮正反两方已经有明显倾向，直接进入综合判断环节。

调整之后的成本大概降了70%，但说实话，辩论的质量确实受了一些影响。以前5轮辩论偶尔能挖出一些深层次的逻辑矛盾，现在2轮就收尾，有些隐含风险可能被漏掉。

这个问题其实和企业级Agent落地遇到的困境是一样的------多轮交互听起来很智能，但每一轮都要花钱。用户最终要的不是"最完美的推理过程"，而是"够用且负担得起的结果"。在效果和成本之间找平衡，比单纯追求技术上的完美要难得多。

第四个坑：4G内存根本跑不动LangGraph

最让我崩溃的是资源限制。

我这台4核4G的云服务器，跑单个LangGraph应用没问题，但一旦加上Checkpoint机制和状态持久化，内存就开始告急。每次Agent执行完一个节点，Checkpoint会保存当前State的快照，这个快照默认是存在内存里的。如果一个查询涉及多个Agent、多个节点，State对象会变得很大，4G内存分分钟被吃满。

有几次线上跑着跑着，进程直接被OOM Killer杀掉。一开始我还以为是代码有内存泄漏，查了半天，最后定位到是LangGraph的Checkpoint机制在作妖。

最后的解决方案是把Checkpoint改成增量快照模式------只保存关键字段的变化，而不是每次都保存完整的State。同时把长文本的中间结果压缩存储，不让它们占用太多内存。

这个改动花了我整整一个周末。但也让我理解了一个道理：企业级Agent系统和个人项目最大的差距，往往不在算法，而在于对资源的精细化管理。央视报道里那些企业，背后是有专门的运维团队和充足的算力支撑的。个人开发者想做类似的事情，必须在资源约束下找到自己的生存空间。

一点感受

看完央视那期关于AI Agent企业落地的报道，我最大的感受是：新闻里看到的都是"已经成功落地"的案例，背后倒下的项目可能十倍不止。

报道里提到"AI超级团队"、"数字员工上岗"，听起来很美好。但我在搭建选股助手的过程里体会到，光是一个多Agent协作的状态管理，就已经够让人头秃了。更别说企业里还有审批流程、数据安全、合规审查这些额外的约束。

不过话说回来，这些困难不意味着多Agent方向错了。恰恰相反，正是因为有价值，落地难度才大。

这两个月最大的收获不是项目本身跑通了，而是对多Agent系统有了更具体的认知。以前看技术文章讲"多Agent协作"，总觉得是个很抽象的概念。现在真正动手做了，才发现每个Agent的职责边界怎么划、状态怎么管理、成本怎么控制，这些细节才是落地的真正难点。

下一步打算给选股助手加上学习引擎，让它能根据市场状态调整各Agent的权重。跑通了再来分享。