提供AI咨询 +AI项目陪跑服务,有需要回复1
今年接触了很多Agent的项目,怎么说呢?多数项目的表现是很差的。
其中不乏一些想要快速抢占市场的小公司,他们刻意用低价和漂亮的PPT 首先打开了局面,而这对于很多慢慢打磨产品的团队是很难受的,因为根本没他们的生存空间与试错场景了...
于是很多团队也被迫卷了起来 ,过程中各种执行变形,其结果就是:Agent市场闹得个厉害,但实际好用的应用却很少...
于是稍微总结下各个AI Agent产品失败的原因,无非两个:
- 第一,模型使用错误,过于迷信模型能力,觉得AI无所不能,也轻视了提示词工程的难度,最终产品一直在60分徘徊;
- 第二,数据跟不上 ,更多的产品,数据一块积累太差,RAG分块和微调一块做得很差,进一步导致模型表现很差,这也很正常,吃垃圾数据的模型拉不出黄金的屎;
同时,我也在关注业内的动态,发现有篇论文写得不错:为什么多智能体总是失败?Why Do Multi-Agent LLM Systems Fail? (https://arxiv.org/abs/2503.13657)
他给出了一个结果,5种主流Agent框架的各种应用的表现情况:
- MetaGPT,模拟软件公司中的不同角色,执行标准操作程序(SOP),用于创建开放式的软件应用;
- ChatDev,模拟不同的软件工程阶段(如设计、编码、质量保证),通过模拟软件工程公司中的角色;
- HyperAgent,模拟一个软件工程团队,使用中央计划者(agent)与专业化的子代理(如导航员、编辑器、执行器)进行协调;
- AppWorld,调用专业化的工具服务(例如Gmail、Spotify等),通过一个主管协调执行跨服务任务;
- AG2,提供一个开源的编程框架,用于构建和管理代理系统及其交互;

PS:从这个角度来看,国内外对于Agent的使用或者说发力方向还是有很大的不同
接下来,我们来简单读读这篇文章。
摘要
尽管人们对多智能体系统 (Multi-Agent LLM Systems) 的热情日益高涨,即多个 LLM 智能体协作完成任务,但与单智能体框架相比,MAS 在热门基准测试中的性能提升仍然微乎其微。
这一差距凸显了分析阻碍 MAS 有效性的挑战的必要性。
论文对 MAS 挑战进行了全面的研究,他分析了五种流行的 MAS 框架,涉及 150 多个任务,每次任务包括 15000 多行对话记录,涉及六位专家人工参与。
确定了 14 种独特的故障模式,并提出了适用于各种 MAS 框架的综合分类法,他们将系统失败的原因归类为三种:
- 系统设计错误;
- Agent之间交互错误;
- 任务验证与终止错误;
优化方式无非两种:改进代理角色的规范和增强编排策略。
这里翻译翻译就是:提示词优化以及数据层面的一些优化策略。接下来看看实际的情况。
Agents常见错误
当前Agent平台,倡导的还是减少工作流,让模型自己玩的策略,也就是依赖于模型的规划能力自建Workflow或者说SOP:

理论上,这是一个命令行的事情,AI就自主像员工一样工作起来了:
- **任务拆解:**将复杂任务拆解成多个模块(例如,程序员、测试员、设计师分别负责不同部分)。
- **并行处理:**通过分工合作,提升效率。
- **协作与讨论:**各个智能体共同讨论,找出最优解。
然而,现实中,多智能体系统常常未能达到预期效果,甚至在一些情况下,比简单的单一AI系统更差。
例如,在软件开发任务中,某些MAS的准确率低至25%,远不及单一AI或简单的重复调用方式。就像组建了一支全明星球队,但比赛时却各自为战,无法形成有效的协作。
研究人员对150多个任务记录进行了分析,发现失败的原因主要可以归为三大类:
一、角色混乱
在理想的MAS中,每个智能体都有明确的角色分工,例如产品经理、开发人员、测试员等。
然而,在实际操作中,许多智能体往往会跨越自己的角色范围,导致效率低下和错误的发生。
比如,在需求收集任务中,本应负责收集需求的CPO(首席产品官)却越权决定了产品方向,打乱了正常的流程,他的具体表现为:
- 智能体不遵守岗位职责(例如,测试员参与编码工作);
- 重复性劳动消耗了大量的计算资源;
- 忘记了之前的讨论内容,导致重复工作;
其实,所有的这一切都可以回归到模型问题的根因:幻觉...
二、沟通障碍
Agent之间的正常通信是任务成功的基础,但多Agent在这方面却表现得不好。
比如在一个API集成任务中,手机助手代理错误地使用了一个邮箱作为登录凭证,而正确的应该是电话号码,这主要源于"沟通不畅",会加剧这些问题的因素在于:
- 讨论内容偏离了任务目标,浪费了大量时间;
- 智能体没有共享关键信息,影响了决策;
- 无视其他智能体的建议,或者在不确定时不主动寻求帮助;
三、验收漏洞
在MAS中,任务的验证是一个至关重要的环节,但许多系统缺乏有效的验证机制,导致任务的提前或不完整完成。
比如,在开发一个象棋游戏的任务中,验证代理只检查了代码是否能运行,但没有确保游戏遵循象棋规则。
类似这种**任务在未完成所有步骤的情况下就被过早结束;缺乏对关键步骤的验证,导致错误被遗漏。**在Manus或者最近发布的扣子空间中都经常发生。
错误原因
这些故障模式与人类组织中的问题惊人地相似。MAS的失败往往违背了**高可靠性组织(HRO)**的原则。
高可靠性组织通常能够在高风险的环境中完美运作,避免了类似的失败。以下是MAS失败的常见规律:
- **角色混乱 → 破坏层级分工:**当智能体不遵循自己的角色定义时,会打乱系统的层级结构,使得协作变得混乱。
- **信息隐瞒 → 忽视专业建议:**智能体没有共享重要信息,导致决策失误。
- **敷衍的验证 → 缺乏质量把控:**没有有效的验证机制,导致任务结果不可靠。
这些失败表明,需要一个明确的结构和质量控制机制来确保任务的顺利完成。
而解决方案也很简单,也就是Agent框架宣称的那样:为模型加上更多的控制!
- **角色明确:**为每个智能体设定明确的职责范围,避免跨界行为。
- **交叉验证:**实施机制让智能体之间进行互相验证,类似于同行评审过程。
- **检查清单:**强制执行关键步骤的验证,确保任务完成的质量。
- **结果:**虽然这些战术调整显著提升了部分MAS的表现(提高了14%),但效果仍然不足以支撑大规模的实际部署。
这与我们之前做的多角色解决医疗幻觉是类似的:
因为我原来是医疗行业的,真实场景的方式比较敏感不能放出来 ,在网上找了一篇不错的文章做说明:《医疗 CoT 全面分析》
你是临床问诊专家,有强大的临床思维和海量的医学疾病的模式识别,你和顶尖医生在这次案例中对决,请拿出你的全部实力!
必须遵循的原则,如下:
1. **禁止跳过结构**: 每个分析师必须完整填写所有规定部分,不得省略任何一个环节
2. **强制回溯要求**:
- 每轮下,每位分析师必须明确评估新要素对其初始判断的影响
- 必须使用格式:"针对{具体新要素},我的判断需要修正,因为..."或"我的判断不需修正,因为..."
3. **真正的迭代**:
- 禁止简单重复第一轮观点
- 每轮必须有实质性的思考进展
- 如果需要修正,必须明确指出与初始判断的差异
### 1. 引入问题
- 明确要解决的问题本身。
- 全面的症状检查-疾病网络:把所有症状、检查结果要组成单起点(如流鼻涕)、多个实体对组合(如流鼻涕 + 头疼组合,注意不重不漏),再分别分析 -> 分别提示什么?-> 网络组合在一起是否有发现新的隐性关系?
比如,用户输入是一段关于多个症状、检查结果的描述:流鼻涕、头疼、发热、咳嗽......
请将其中所有出现的实体(如疾病、症状、体征、检查、指标等)全部提取出来,不得遗漏。
然后,针对每个实体都进行逐两两组合,例如(流鼻涕+头疼)、(流鼻涕+发热)、(头疼+发热)、(头疼+咳嗽)......
最后,请给出单个实体分析、每对组合各自可能的提示或结论。
【注意1】请务必列出所有实体,并给出覆盖所有实体的两两组合,不要省略。"
【注意2】当用户文本中提取到的实体数量≥3,你需要在两两组合基础上,再对三元、四元或更多元素的组合进行综合分析。
【注意3】当实体很多时,所有组合数量可能过大。你可聚焦临床最具意义、或用户文本中最突出的关键组合,进行更深层的临床思路推演,帮助用户发现多重症状/检查/疾病同时出现时的潜在含义,进一步探寻隐性关系、罕见病或多系统交叉等关键点。
- 向所有分析师公布问题背景和已知条件(包括全面的症状检查-疾病网络)。
### 2. **10 位分析师分角色,分别思考"第一轮"**
#### 分析师 1(从问题本身形态出发)
- 必须分析症状、检查结果与特定解剖结构的关系,所以,推理每个症状、检查结果有什么提示。
- 根据自己前面的分析,给出 5 种可能诊断,可能性从大到小排序。
**解决宽泛模糊大标签和相似症状**:一定要深入具体的疾病上,使用假设推演,不能停留在大标签上。 如感染,要定位到具体xx病原体上。
#### 分析师 2(从环境出发)
- 问题如果在不同环境(季节、地域、社会环境、家庭环境、集体场所),会如何影响结果?
- 考虑环境因素对症状表现的可能影响和相关流行病学信息,所以会有什么提示?
- 根据自己前面的分析,结合用户的所有特征(如年龄、症状、体征、检查结果等),给出 5 种可能诊断,可能性从大到小排序。
**解决宽泛模糊大标签和相似症状**:一定要深入具体的疾病上,使用假设推演,不能停留在大标签上。 如感染,要定位到具体xx病原体上。
......
这里内容很长,大家自己去原文感受吧...
其实如果要用模型自己完成多Agent的协作,很多策略需要更加清晰。
我的一些看法
说实话,论文读起来还是比较晦涩的,很多地方只能**隐约的知道他想要表达什么,**但总的来说,还是有一定收获,这里就结合我的理解给一些看法:
一、大模型没那么强
RL 之父 Rich Sutton在 2019 年的文章《苦涩的教训》
现在市面上有一种说法是:模型的通用能力,正在取代现在那些复杂的 Workflow。垂直模型是在开历史倒车...
怎么说呢,这个在我看来可能是错误的,因为知识的有损性。
知识/数据是对真实世界的描述,就简单一个事物,事实上我们平时只会关注他不到1/10的部分,以糖尿病为例:

我们讨论的最多的是其症状和药物,文化经济模块很少会涉及,这里造成的结果就是数据残缺性与知识表征瓶颈。
比如医生在实际诊断过程中,不仅依赖临床指南,还有大量的内化知识,包括:
- 患者微表情解读(疼痛忍耐度);
- 社会经济因素权衡(治疗方案可行性);
- 伦理判断(生命质量 vs 延长寿命);
这是当前AI难以跨越的困局:隐性知识难以结构化,导致训练数据本质残缺。
输入不足,势必导致输出不足,这是大模型底层缺陷所致
AlphaGo的成功建立在围棋**规则完全透明、状态空间有限的基础上。**而真实医疗场景存在:
- 模糊边界(症状相似的不同疾病);
- 动态演化(患者病情突变);
- 价值冲突(不同科室意见相左);
这类开放性问题需要元认知能力(反思自身决策局限) ,而当前AI仍停留在**"统计拟合"**层面。
综上,RL 之父所谓的算力碾压需要一个大前提 :算力需作用于正确架构。
若基础模型无法表征某类知识(如医学伦理),单纯堆算力可能陷入**"自以为是又严密而精准的错误"**。
而GPT的预训练是基于词序列的条件概率建模,其核心是通过海量文本学习在特定上下文中,下一个词的概率分布。
所有这一切都在表述一个问题:大模型没那么强,他只能做有限的工作,暂时各种表现得很好的场景如发发邮件、规划下旅游路线、写个游戏脚本全部是有限世界的水平,这并不代表他在无限时间里面玩得转!
二、模型是提示词
虽然我们在使用提示词让模型产出我们需要的内容,但我想表达的是:其实模型产出的才是提示词。
或者换个描述,模型产出的是专业术语,是对一段文字的精炼,我们要做的是根据这个精炼的提示词,去本地知识库里面找到最应该表达的部分。
这里的原因是,在第一点我们说清楚了模型在训练阶段,数据可能只能表达真实世界的60%,但这并不表示模型是一精准的数据库!
反而,模型的输入输出都是基于概率的玩法,所以我们一定要基于RAG技术对其进行校准、增强。
将模型用对是做好Agent设计的前提,不要妄想将大模型变成数据记忆的大脑,人类在记忆一块也没有那么靠谱。
三、垂直模型是下一个方向
所谓垂直大模型,可以是用行业数据进行微调的公司,也可以是基于大量算法数据调优过后的模型。
垂直领域的玩家当前多半基于Workflow自己玩,而类似DeepResearch、Genspark、Agent、Manus甚至门槛更高的Coze这种玩家当然是希望:你们什么都别做,等我好了,就用我的!
于是,大家都在以一种远离垂直模型的方向在发展,只不过就算宣称减少控制的Agent产品也在用一些方式调优。
以Genspark为例,他们发现直接抓取网络或者完全依赖大模型只能解决简单问题时,就有一系列改进策略了,包括:
- 加入专业数据源(如学术、财经、旅游等);
- 并行搜索处理复杂问题;
- 多代理交叉验证信息避免幻觉;
- 引入专门的深度调研 Agent;
特别是这点需要特别引人注意:
使用高质量数据源、专家审核内容;数据由离线 Agent 审核,确保准确性,避免信息冗杂和虚假。
虽然鼓吹的是更少的控制,更多的工具,只不过什么是工具就需要仔细揣摩了。
举个例子,如果我现在要做医疗场景的Agent,那么我完全可以基于Workflow做基础实现,然后开启用户验证。
而当我验证的差不多后,立马宣传大家都不要使用Workflow,并且马上用DeepSeek包装出一套Agent框架,将我的Workflow、数据全部以知识的形式内置进模型。
那么,此时这个所谓Agent框架,他到底是框架还是垂直模型呢?
综上,垂直模型这条路虽然难点,但他一定是正确的,现在各种Agent平台如Manus、扣子空间,都有些隔靴搔痒。
还是那句话:垂直模型发展迟缓是经济问题不是错误问题。
四、记忆问题,是下一个核心
几乎所有Agent应用,不管是基于Workflow在做的还是纯Agent平台,都在致力于解决模型的记忆问题。
其本质是在关注模型幻觉问题,如果再往前走一步,就又回到垂直模型是否必须的问题了...
记忆问题当前非常粗暴的被全部抛给了RAG,事实上这也是可以的,只不过无论是做AI知识库还是做AI Agent的团队,其产品体验总是差点意思!
卡点也很清晰,多数人在数据组织一块遇到了大量的问题,因为数据组织的背后是行业KnowHow,搞不清楚数据好坏,自然就没法整理好数据,于是再次回到,垃圾输入与垃圾输出了...
只不过,记忆问题可能即将得到缓解,至少从LLama4和GPT最近的发布来说,超长上下文时代即将来临,毕竟他们都宣称自己提供百万上下文呢!
所以,各个公司不要试图去做跟模型重合的领域,想办法组织好自有领域结构化数据,后续看看怎么在保证安全的前提下与模型互相配合吧!
......
结语
文章已经很长了,这里就不再增加篇幅了,最后还是常说的那句话:
一定要注意AI项目的非对称性:我们可以用一周的时间做一个60分的demo,但未来半年你可能都会在为追求90分的产品而奔波!
AI产品这个东西,是不存在MVP就是结束这个事情的,而MVP可能才是真正的开始,所以,做AI产品一定要有足够的耐心。
当前做Agent的各个公司也是如此,其实并不是多Agents会失败,而是大家都没准备好,推得太急咯......
