
Manus AI 联合创始人兼首席科学家季义超(Peak)。
最近发布了一款名为 Manus 的自主 AI 代理。尽管许多细节仍不明确,但据报道,他们的解决方案在早期基准测试中的表现优于其主要竞争对手之一 OpenAI。
人工智能代理代表了下一代虚拟助手,旨在做出明智的决策、执行基本任务并根据先前的经验和互动进行学习。
Manus 是一个自主的人工智能代理。虽然许多当前的人工智能模型需要通过基于文本的聊天或语音命令与人互动,但 Manus 无需分步说明即可运行。Manus 能够独立运行,其初始功能包括寻找 B2B 供应商、绘制潜在客户地图、创建教育材料和旅行规划。
虽然 AI 代理并非新鲜事物,但大型语言模型(LLM) 的兴起提升了它们的受欢迎程度。AI 代理和 LLM 结合使用时,可以更轻松地与 AI 交互并实现特定目标。
基准测试
这款新 AI 代理背后的中国开发团队名为 Manus AI,他们在 YouTube 上发布了一段介绍视频,宣布了他们的最新创新。视频不仅涵盖了一些典型用例,例如简历筛选、房地产研究和股票分析,还重点介绍了 Manus 在早期基准测试中的结果。
他们使用 GAIA(一种用于 AI 助手和其他生成式 AI 工具的通用基准测试系统)来测试 Manus 解决实际问题的能力。与之前曾被认为是"最先进"(SOTA)的基准测试相比,Manus 在所有三个难度级别上的得分都更高。
但测试并未就此结束。Manus AI 团队还直接将 Manus 与 OpenAI 进行了性能对比,结果 Manus 的表现也更胜一筹。
- 第 1 级: Manus(86.5%)/ OpenAI(74.3%)/ 之前的 SOTA(67.9%)。
- 第 2 级: Manus(70.1%)/ OpenAI(69.1%)/ 之前的 SOTA(67.4%)。
- 3 级: Manus(57.7%)/ OpenAI(47.6%)/ 之前的 SOTA(42.3%)。
他们的初始基准测试结果令人鼓舞,但 Manus 目前仅通过邀请预览版提供。确切的发布日期尚未公布,而且尚不清楚这款新的 AI 代理何时会向公众推出。
加强人工智能模型竞争
当前人工智能领域的竞争日益激烈。从 Manus 到 2025 年发布的几种其他类型的人工智能模型,这一年已成为下一代人工智能发展的关键时期。