2025AI元年,常见智能体盘点

你好,小钗在医疗AI、教育AI、管理AI有丰富的经验

关注公众号,回复1,与我交个朋友吧

2025被成为国内AI应用元年,抛开各个公司正在自研的各种产品,有两类产品是比较红火的:Agent平台以及智能体(Agent)

这里的Agent平台,其实是一种低代码平台,他可以高效的生成各种简单的Agent(更合适的叫法是个人助手),

这里的个人助手,与最近网上很火的智能体(比如Manus、DeepResearch)又很不一样,所以当前Agent的定义有点泛,后面可能要被迭代,以更精准的描述

前几天,我们介绍了市面上常见的Agent平台:

  1. AI创业如何选择Agent平台,Coze、Dify、腾讯元器?可能都不是
  2. Coze案例,个人知识库
  3. Coze/Dify/FastGPT/N8N :该如何选择Agent平台?

最近活跃的智能体有DeepResearch、Auto-GPT、Manus、扣子空间、Lovart等。

当前这些AI产品**"搞得热闹"** ,其目的还是Attention is all you need,他们一方面在争夺注意力,一方面在占据新一轮流量入口

之前介绍了Agent平台,今天我们来介绍下当前常见的智能体。

智能体概述

当前智能体的概括性描述,最好的材料是OpenAI创始人outman提出的发展预测:

这种设计的底层逻辑只有一个:模型吃掉应用 ,他们是想将所有的算法(工作流)、数据(知识库)、工具插件全部吃掉,模型即所有,这也同步提出了Agent经典架构:

从模块分类来说:

  1. 大模型解决规划与调度问题,Manus能爆发的核心原因就是模型能力大幅增强;
  2. RAG解决幻觉问题,当前模型的发展趋势来说,模型上下文破百万是早晚的事,如何让模型聊得像人,体验好的AI分身这类应用,将在这两年诞生;
  3. 工具链解决多模态问题,包括最近很火的MCP、Computer Use其实都算是AI多模态能力的延伸,要的就是解决AI各种"不行"的问题,这里包括了听觉、视觉、触觉等;

基于此,再看如今常见的智能体,又可以分为两类:通用型智能体、垂直行业智能体

因为基座模型能力不大,大家都一样的所以,:

对通用型智能体来说,其核心是工具生态,生态越繁荣越容易脱颖而出;

而对于垂直行业智能体来说,私有语料、垂直领域插件越多,其使用上越友好。

以Manus为例,他其实是没有什么技术门槛的,国内有很多类似的产品,比如,其实现周期在一周左右,当然要打磨得好,也要花不少时间的。

接下来,我们来具体介绍下几款产品。

Deep Research

OpenAI 2月底就推出了Deep Research功能,每个月使用次数有限。

在表现上Deep Research称得上足够专业,他会像人类专家一样对复杂任务进行逐步拆解,然后在互联网上进行多轮的信息搜索与验证。

他会根据已有的信息逐步调整研究方向和策略,不断深入挖掘问题的本质,直到找到最合适的答案。

但与Manus等智能体一致:真实使用后,大概不会想要使用第二次,他还不成熟


我的任务是想要去整理所有的医疗信息,这显然是一项复杂的工程,为了降低难度,我更改了问题:梳理所有的医疗信息发布渠道

基于这个问题,开始了Deep Research之旅,先是给了一些输入:

我要完成《医疗信息产出渠道全景分级体系》。

其目的是将所有可能产出医疗信息的机构全部包含,并且进行分级,需要遵循MECE原则

PS:真实提示词会严谨很多,但有一定密度就不放出来了

在多次提示、反复的情况下,GPT给了我以下反馈:

不用细看了,有很大问题,连最基础的医疗教科书都没有...

在明知道他有问题的情况下,我开始了反复暗示:是否有遗漏,很可惜系统都没有给我满意的答复。

综上,在每个问题耗时5-30分钟以后,Deep Research对于过于复杂的问题,是难以独立完成任务的。

基于此,我们再看看国内的Manus:

Manus

Manus其实是相当成功的,融资数字一定不会骗人:4月Manus完成了7500万美元的融资,近期貌似又拿到了一亿美元融资,估值已达20亿美元

因为我们前面说了他的技术门槛不高,所以资本其实对于能把AI玩明白、能把营销玩明白的公司是很看好的。

具体产品来说,他完成的功能会比Deep Research更丰富,比如让Manus给当下的Agent大模型打分,然后产出了一个报表,看上去就像模像样:

但真实使用后,问题很多,这里随便挑三点说说:

一、Less structure, more intelligence

Manus类智能体走的是模型即所有的路线,大概意思就是:别干涉我,我自己玩,这个是个美好的愿望,但以当前的完成度来说就很麻烦,因为他不好接受输入输出。

当前,Manus基于Computer Use作独立网页运作,无法嵌入钉钉/飞书等生产环境,用户需反复切换界面,用起来挺麻烦的。

PS:但其实也挺无所谓的,因为他输出能力反正也不行...

二、经常性中断

这里不只是Manus,Deep Research也是一样,每个任务耗时很长(30分钟也是常见的事),但当你真的离开回来,发现因上下文丢失,任务中断了,这还是比较令人抓狂的。

社区反馈其决策树容易进入死循环、重复执行或长时间无响应,成功率被用户吐槽低于30%。

这里服务器稳定性问题就先不说了,肯定是比较差的...

三、幻觉问题

Manus生成内容虽常自称"已标注来源",但真实检查时引用链接缺失或对不准,可靠度不足。

并且,产品主体和算力落地位置不透明,这里可能会存在跨境存储、法律管辖不清的隐忧...

小结

还有些其他问题,就不做展开了,只不过瑕不掩瑜,Manus虽然有点缝合怪,但也许缝合怪才是AI的正确打开方式。

其意义还是从L2到L3,从聊天机器人到任务完成者。

然后,我们来看看扣子空间:

扣子空间

字节在AI应用这块可称为高富帅,他们已经形成了AI体系了

  1. 想做Agent做POC验证,先顺手来个扣子;
  2. 扣子搞不定多Agent协作问题,继续来一套多维表格;
  3. 需要做知识库,直接上飞书知识问答,立刻激活飞书文档;
  4. 基座模型方面还有豆包;
  5. ...;

字节可谓将整个AI应用生态玩得明明白白,并且抖音生态提供了大量流量支持,很多主播都涌向了扣子体系,这就导致这个生态十分健全。

在这个基础上,扣子空间是真的可以将Agent全流程搞定的,包括任务编排、MCP调用、结果交付,并且基于字节强大的技术能力,他稳定性高不说还挺便宜...

扣子AI生态是一个厚积薄发的代表,国外一般智能体还真跟不上...

但国外的大厂也很牛逼,比如Google I/O所展示出来的视频AI套餐。谷歌发布了三款创作者向的 AI 工具:

  1. Flow 脚本→分镜→配乐→配音一条龙;
  2. Veo 3 让 AI 视频摆脱"无声时代",支持原生音轨与物理细节;
  3. Imagen 4 图生图,2K 分辨率保持 Logo 与文字清晰;

这三者组合,就像是给创作者配齐了导演、摄影、视觉总监:

简单描述一句就是:我可以基于此,直接做短剧了...

而红杉进一步指出:企业级市场中,真正先跑出来的入口未必是通用大模型,而是 Harvey(法律)、Open Evidence(医疗)这类垂直领域智能体 OS,因为它们能听懂行业语言,理解真实需求。

所以,Manus这种当前博眼球一些,但真正使用的好的是Cursor、Lovart这种垂直领域牵扯较深的应用,甚至Lovart还可以被再细分到广告、建筑领域。

从这里,我们也将视野从通用智能体转向垂直领域智能体:

Lovart

今年在图像与视频侧AI在各种开挂,前些日子设计领域的Agent产品Lovart表现得非常不错:

他跟Cursor很类似,属于设计师的生产力工具,并且真正的在交付结果。

逻辑上来说再发展一下Cursor与Lovart就能打破专业KnowHow的壁垒了,你只需要告诉Lovart具体怎么画、什么风格,其次他全程就自己玩了,比如这里的一些漫画效果:

无论是Cursor还是Lovart,他标志着垂直领域的Agent逐渐走向成熟,另一方面也在验证红杉峰会的判断:AI应用首先会在垂直领域展开

结语

还有些其他的Agent值得研究,比如很多写PPT的Agent,已经非常成熟,这里通过Agent的研究其实可以得出一个结论:通用智能体还不成熟,而行业智能体正在达到可用的水平

RL 之父 Rich Sutton在 2019 年的文章《苦涩的教训》中指出:

70 年的 AI 研究历史告诉我们一个最重要的道理:依靠纯粹算力的通用方法,最终总能以压倒性优势胜出

加上模型能力的快速提升、Manus的爆火出圈,于是很多人会认为:模型的通用能力,正在取代现在那些复杂的 Workflow。

但我认为这是不对的,至少说在这几年是不对的,因为GPT是基于统计学的逻辑,他并不具备真正的思考能力

首先,AI产品的实现在于两极:模型与工程,基座模型能力越强那么对应工程实现就可以越简单,只不过这里有个动态的临界点。这个临界点是:

  1. 模型可以不做规划,但他真的能精准抽取关键词,这是是否性问题
  2. 工程能切实补足大模型的天生缺陷,比如幻觉、比如记忆问题

就我看到的20家企业,在AI产品实现全部是基于Workflow在做设计,他们对于模型是否会完全颠覆自己的提示词工程表现出了几无所谓的态度,原因是:

  1. 浅尝则止的公司,提示词工程本来成本就很低,10多20万就搞定了,模型要取代就取代呗,他们毫无所谓
  2. 行业深度 运用的公司,已经是领域非常资深的玩家,他们的提示词工程依赖于大量KnowHow,偶尔他们自己都玩不明白,所以对于模型马上会具备超越他们行业认知的事情,是毫不担心的;

这里要注意的是,这里所谓的行业深度并不是只程序员行业、图像行业这种规则性完善的公司,而是指医疗、金融、法律等领域。

回到上文的通用性智能体Deep Research、Manus对比垂直型智能体Cursor、Lovart,也许大家也能拿到当前最佳的AI项目实践路径的答案。

综上,我还是赞成红杉AI峰会那句话:AI应用的机会在垂直领域