AI智能体落地失败的罪魁祸首除了大模型幻觉,还有它

点击蓝字 关注我们

相信最近很多人都刷过一个视频:2025年AI智能体注定失败。

我们常见的产品演示中,AI 智能体总能完美完几步的简单任务,但现实中的工作流往往需要20步甚至更多。在我自己AI的的圈子里,我看到很多人都在抱怨,AI幻觉导致创作内容成功概率崩得极其厉害。

假设智能体每一步的准确率高达95%,当它连续执行20个步骤时,最终的成功率是 95% 的 20 次方,结果仅为 36% 。这只是单个任务,如果像大家非常喜欢的Vibe Coding是多个任务同步或交叉运行,运行100次后的结果更是只有0.592%,接近国足进世界杯概率。

不过今天我们不单单讲幻觉导致的失败问题,还要加多一味调料:MCP

MCP在刚开始问世的时候,很多人都觉得智能体+工具即将没落了,MCP才是王中王,然后疯狂涌入MCP的基建中,眼看着MCP的生态好像越来越好了,各个大厂生态纷纷入局。

但是,我们有没有发现,MCP虽然好,但我们在工作中并没有常常见到它。

我猜到这里肯定有开发者要跟我杠了:开玩笑,通用智能体里边肯定需要MCP啊。对,这个我不可否认,只是别的不敢说,黄啊码用过那么多通用智能体,最终能到手即结果的,真的不多,特别特别少。

如果说黄啊码的说法有失偏颇,市场绝对不会骗人,今天恰巧在开发群里冒出了这张图,顺便展现给大家看看

翻译过来就是:MCP可能是唯一一个开发者多于用户技术

从AI刚开始火起来到我们逐步接受AI的不足,到现在要求生成即结果,为结果付费,难道你还觉得幻觉是可有可无的存在吗?

那MCP为什么会加剧AI幻觉的后果呢?我们应该怎么降低类似问题的概率,今天黄啊码一步步跟大家唠嗑明白。

1、 错误复合效应

跟我们常说的多米洛骨牌效应是一致的,牵一发而动全身,一步错,步步错,举个现实点的例子:

某家能源企业利用MCP调用天气API,把25℉标成25℃【华氏度和摄氏度】,后续AI算光伏板发电效率,直接少算了40%,跑到第20步,电网调度决策让3座变电站超载,所有的钱都付诸东流,那。。就让AI背锅吧?

解决办法

破解办法其实很简单,把任务拆成3到5步,每步设个人工质检员。就像煮泡面,总不能等水烧干了才发现没放调料包吧。

不要觉得在AI时代用工作流是一件很丢脸的事情,明知有错却重复犯错才是最丢脸的,也是最不应该的。

2、计算单次交互成本, MCP让成本失控

理想情况:AI应该用最少的交互完成任务,简单理解就是生成即结果。

MCP的现实:MCP的"逐工具调用"模式让AI不得不进行多轮对话,比如如先查数据,再处理,再验证,导致 API成本平方级增长。本来想请AI打工省钱,结果AI把工资条刷成了天文数字,这是2025年多少企业的心声,

比如最惨的是代码能体Cursor,2025年Q2突然宣布API涨价300%,用户骂骂咧咧,合着我请AI写代码,最后是给OpenAI打工。Claude Code更直接,取消无限调用套餐,毕竟谁也扛不住MCP这种每说一句话都要收费的模式。

解决办法

及时反馈,及时人为干预,不确定的事情交给人工处理,做到AI+人。

我看到很多人用AI的时候经常碰到死循环,就是AI一直在检查自己是否错了,可是预训练的数据本来就是错误的答案,然后AI一边说对不起,一边重复输出错误的答案,用户看了不知道是哭还是笑好。

3、没有统一的组织规范,输出内容混乱

目前市面上的MCP工具大多只是对API的重复包装,简单说就是"套壳"。这种做法本身并无不妥,只要产品有价值,"套壳"不过是一种表述方式。毕竟,现在绝大多数AI应用都是基于大模型基座开发的,我们不会简单地将它们归类为"套壳"产品。

真正导致智能体执行任务失败的核心问题在于输出内容缺乏统一规范。以支付MCP为例,当需要支付100人民币时,如果工具输出的是美元金额,调用平台无法识别,用户最终面对的将是一个天文数字。这与上边讨论的华氏度和摄氏度混淆问题颇为相似。

还有就是,许多MCP工具由开发者发布,他们需要获取收益,通常采用与密钥结合、按月收费的模式。然而对用户而言,已经为使用工具付费,调用MCP还需额外付费,套壳可以理解,套娃收费无法苟同。

解决方案

  • 选择跟AI智能体平台或工具相互合作的MCP工具,减少付费次数,提高用户的体验感。

  • 在选用mcp工具时候,注意工具的输出内容规范,及时更新说明文档,注意工具的升级更新,做到有更新及时发现、有问题及时弥补。

  • 如果可以,当然我说的是如果,如果能够建立统一规范的MCP Market,这是最好的结果,这跟小程序的开发者平台非常类似,用统一的规范要求开发者,开发者还能从平台中获利,最终实现良性循环。

ok,以上内容如果觉得跳过枯燥,黄啊码帮大家总结一下:

2025年AI生存指南,别让MCP当甩手掌柜,AI不是超级英雄,是需要监护人的小孩,MCP的坑,是幻觉的问题吗?是开发者的问题吗?都不是,本质是我们幻想AI能自主搞定一切。

最好的办法就是给人类留暂停键,再牛的自动驾驶也有方向盘,AI的自主性必须建立在可控制上。就像玩游戏开存档功能,MCP搞砸了,随时能读档重来。

我是黄啊码,码字的码,如果觉得受用,欢迎一键三连,另外如果想进入私人交流群一起交流学习,也可以V我。

相关推荐
建投数据3 分钟前
建投数据再度获评国家级“高新技术企业”
大数据·人工智能
中电金信6 分钟前
中电金信助力200+金融机构同步迁移SWIFT ISO20022标准
大数据·人工智能
山土成旧客7 分钟前
【Python学习打卡-Day25】从程序崩溃到优雅处理:掌握Python的异常处理艺术
人工智能·python·学习
_codemonster9 分钟前
AI大模型入门到实战系列(十四)创建文本嵌入模型
人工智能
程序猿202316 分钟前
大语言模型简介
人工智能·语言模型·自然语言处理
CodeLinghu21 分钟前
提示词链模式:一种利用LLM大语言模型处理复杂任务的强大范式
前端·人工智能·语言模型
Wilber的技术分享24 分钟前
【大模型实战笔记 8】深入理解 LangGraph:构建可持久化、多智能体的 LLM 工作流
人工智能·笔记·agent·langgraph·智能体开发
小二·28 分钟前
AI工程化实战《二》:RAG 高级优化全解——从 HyDE 到 Self-RAG,打造高精度企业问答系统
人工智能·microsoft·机器学习
yuhaiqun198930 分钟前
学AI Agent:从React模式到Plan框架,3条路径一次学透
人工智能·经验分享·笔记·react.js·机器学习·ai·aigc
zhonghua88101639 分钟前
spring ai alibab agent之ReactAgent深度解读
java·人工智能·spring