AI智能体落地失败的罪魁祸首除了大模型幻觉,还有它

点击蓝字 关注我们

相信最近很多人都刷过一个视频:2025年AI智能体注定失败。

我们常见的产品演示中,AI 智能体总能完美完几步的简单任务,但现实中的工作流往往需要20步甚至更多。在我自己AI的的圈子里,我看到很多人都在抱怨,AI幻觉导致创作内容成功概率崩得极其厉害。

假设智能体每一步的准确率高达95%,当它连续执行20个步骤时,最终的成功率是 95% 的 20 次方,结果仅为 36% 。这只是单个任务,如果像大家非常喜欢的Vibe Coding是多个任务同步或交叉运行,运行100次后的结果更是只有0.592%,接近国足进世界杯概率。

不过今天我们不单单讲幻觉导致的失败问题,还要加多一味调料:MCP

MCP在刚开始问世的时候,很多人都觉得智能体+工具即将没落了,MCP才是王中王,然后疯狂涌入MCP的基建中,眼看着MCP的生态好像越来越好了,各个大厂生态纷纷入局。

但是,我们有没有发现,MCP虽然好,但我们在工作中并没有常常见到它。

我猜到这里肯定有开发者要跟我杠了:开玩笑,通用智能体里边肯定需要MCP啊。对,这个我不可否认,只是别的不敢说,黄啊码用过那么多通用智能体,最终能到手即结果的,真的不多,特别特别少。

如果说黄啊码的说法有失偏颇,市场绝对不会骗人,今天恰巧在开发群里冒出了这张图,顺便展现给大家看看

翻译过来就是:MCP可能是唯一一个开发者多于用户技术

从AI刚开始火起来到我们逐步接受AI的不足,到现在要求生成即结果,为结果付费,难道你还觉得幻觉是可有可无的存在吗?

那MCP为什么会加剧AI幻觉的后果呢?我们应该怎么降低类似问题的概率,今天黄啊码一步步跟大家唠嗑明白。

1、 错误复合效应

跟我们常说的多米洛骨牌效应是一致的,牵一发而动全身,一步错,步步错,举个现实点的例子:

某家能源企业利用MCP调用天气API,把25℉标成25℃【华氏度和摄氏度】,后续AI算光伏板发电效率,直接少算了40%,跑到第20步,电网调度决策让3座变电站超载,所有的钱都付诸东流,那。。就让AI背锅吧?

解决办法

破解办法其实很简单,把任务拆成3到5步,每步设个人工质检员。就像煮泡面,总不能等水烧干了才发现没放调料包吧。

不要觉得在AI时代用工作流是一件很丢脸的事情,明知有错却重复犯错才是最丢脸的,也是最不应该的。

2、计算单次交互成本, MCP让成本失控

理想情况:AI应该用最少的交互完成任务,简单理解就是生成即结果。

MCP的现实:MCP的"逐工具调用"模式让AI不得不进行多轮对话,比如如先查数据,再处理,再验证,导致 API成本平方级增长。本来想请AI打工省钱,结果AI把工资条刷成了天文数字,这是2025年多少企业的心声,

比如最惨的是代码能体Cursor,2025年Q2突然宣布API涨价300%,用户骂骂咧咧,合着我请AI写代码,最后是给OpenAI打工。Claude Code更直接,取消无限调用套餐,毕竟谁也扛不住MCP这种每说一句话都要收费的模式。

解决办法

及时反馈,及时人为干预,不确定的事情交给人工处理,做到AI+人。

我看到很多人用AI的时候经常碰到死循环,就是AI一直在检查自己是否错了,可是预训练的数据本来就是错误的答案,然后AI一边说对不起,一边重复输出错误的答案,用户看了不知道是哭还是笑好。

3、没有统一的组织规范,输出内容混乱

目前市面上的MCP工具大多只是对API的重复包装,简单说就是"套壳"。这种做法本身并无不妥,只要产品有价值,"套壳"不过是一种表述方式。毕竟,现在绝大多数AI应用都是基于大模型基座开发的,我们不会简单地将它们归类为"套壳"产品。

真正导致智能体执行任务失败的核心问题在于输出内容缺乏统一规范。以支付MCP为例,当需要支付100人民币时,如果工具输出的是美元金额,调用平台无法识别,用户最终面对的将是一个天文数字。这与上边讨论的华氏度和摄氏度混淆问题颇为相似。

还有就是,许多MCP工具由开发者发布,他们需要获取收益,通常采用与密钥结合、按月收费的模式。然而对用户而言,已经为使用工具付费,调用MCP还需额外付费,套壳可以理解,套娃收费无法苟同。

解决方案

  • 选择跟AI智能体平台或工具相互合作的MCP工具,减少付费次数,提高用户的体验感。

  • 在选用mcp工具时候,注意工具的输出内容规范,及时更新说明文档,注意工具的升级更新,做到有更新及时发现、有问题及时弥补。

  • 如果可以,当然我说的是如果,如果能够建立统一规范的MCP Market,这是最好的结果,这跟小程序的开发者平台非常类似,用统一的规范要求开发者,开发者还能从平台中获利,最终实现良性循环。

ok,以上内容如果觉得跳过枯燥,黄啊码帮大家总结一下:

2025年AI生存指南,别让MCP当甩手掌柜,AI不是超级英雄,是需要监护人的小孩,MCP的坑,是幻觉的问题吗?是开发者的问题吗?都不是,本质是我们幻想AI能自主搞定一切。

最好的办法就是给人类留暂停键,再牛的自动驾驶也有方向盘,AI的自主性必须建立在可控制上。就像玩游戏开存档功能,MCP搞砸了,随时能读档重来。

我是黄啊码,码字的码,如果觉得受用,欢迎一键三连,另外如果想进入私人交流群一起交流学习,也可以V我。

相关推荐
数据堂官方账号2 小时前
版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域
人工智能·计算机视觉·大模型·数据集·语音识别·语音合成·多模态大模型
CV实验室2 小时前
IEEE TGRS 2025 | 突破小波U-Net局限,ASCNet实现更精准的红外去条纹!
人工智能·计算机视觉·论文
几两春秋梦_2 小时前
强化学习原理(二)
人工智能·机器学习
互联网之声2 小时前
兑吧集团受邀参加2025华康会·DaJK大健康“源头创新·链动未来”创新论坛
大数据·人工智能
倔强青铜三2 小时前
苦练Python第54天:比较运算魔术方法全解析,让你的对象“懂大小、能排序”!
人工智能·python·面试
倔强青铜三3 小时前
苦练Python第53天:数值运算魔术方法从入门到精通
人工智能·python·面试
yaso_zhang3 小时前
jetpack6.1 的新 pytorch 2.5.1 版本在哪里?下载中心仅提供 pytorch v2.5.0a0。
人工智能·pytorch·python
金井PRATHAMA3 小时前
语义三角论对人工智能自然语言处理深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
Canace3 小时前
我们是否需要AI知识库
人工智能·aigc·ai编程