Anthropic 发布 Claude Cowork:通用 Agent 的第 4 次尝试会成功吗

Anthropic 发布了新功能 Claude Cowork 功能,必定会是一个现象级的产品特性,也不知不觉将通用 Agent 的产品尝试带到第四阶段,那前三次尝试呢,我认为分别是 AutoGPT 定义 Agent 能力、Devin 定义 Agent 产品形态、Manus 激进的走向 Majority,本文主要是我以往观点的一些整理。

产品发布时间线

  • 2023 年 3 月 30 日,AutoGPT 由游戏和软件开发公司 Significant Gravitas 的创始人 Toran Bruce Richards 发布

  • 2024 年 3 月 12 日,Devin AI 由 Cognition 公司推出,作为全球首个完全自主的 AI 程序员(注: Introducing Devin, the first AI software engineer

  • 2025 年 3 月 6 日,Manus由 Monica 团队正式发布,号称全球首款通用 Agent 产品

  • 2026 年 1 月 12 日,Claude Cowork 功能由 Anthropic 发布,一个面向非技术用户的通用 Agent 工具(注:Introducing Cowork: Claude Code for the rest of your work

AutoGPT 定义 Agent 能力

今天绝大多数 Agent 产品展示的用户案例,和三年前 AutoGPT 可以做的事情相比仍然没变化,当然产出质量肯定发生了显著进步。

Devin 定义 Agent 产品形态

原始观点,Devin 主打 Code Agent,为什么也能划分到通用 Agent 呢,因为 Code is a meta tool,一个能完成长程任务的 Code Agent,必然可以迁移到非编码领域的,为任务提供专门的沙盒环境、支持人机协作、实时打断、合适的环节通知人介入等,这些理念在后续其他的 Agent 产品均有所体现。

回头看,Devin 的产品理念确实遥遥领先,而 AutoGPT 终归是个技术视角产物,太 naive,不过也要承认,AutoGPT 作为开源实验,启发了整个行业对 agent 的探索。

Devin 作为产品

明确的用户场景:专注解决软件工程师的实际工作流程,而不是泛化的自主 agent 可控性设计:提供沙盒环境、实时可视化、人机协作界面,让用户始终掌控全局 工程化细节:处理了 git 操作、环境配置、调试等真实开发中的琐碎但关键的环节 渐进式自动化:不追求完全自主,而是在合适的环节引入人类判断

AutoGPT 作为实验 技术炫技倾向:过度强调自主循环和无限迭代,但缺乏实际价值验证 忽视可靠性:在 LLM 能力还不稳定时,就堆叠复杂的 multi-agent 架构 用户体验缺失:没有考虑用户如何介入、如何信任、如何调试一个黑盒 agent 场景过于宽泛:试图做通用自主 agent,结果什么都做不好

端到端训练

Cognition AI(Devin)发布的 SWE-1.5,训练过程也相当硬核,他们动用了数千个 GB200 NVL72 芯片集群,还开发了专门的 otterlink 虚拟机管理程序,在数万个并发沙箱环境中进行强化学习训练。有意思的是,这种在高保真模拟环境中进行大规模强化学习微调的做法,在 Cursor 的 Composer-1 模型上也能看到Cognition 如何使用 RFT 优化 Devin

Manus 激进的走向 Majority

原始观点

看了两家这么多的文档、播客采访、技术博客,也使用过产品,Claude Code 和 Manus 产品理念是非常一致的,对 AI 能力边界的理解也是 T0 级别的,区别在于:

  • Manus 一推出就是面向 Majority,"我不要你觉得,我要我觉得",这让我非常不喜欢,包括后面那些邯郸学步的 xx 领域第一个 Agent 们,数据工程不扎实,一阵操作猛如虎一看输出二百五,才有那篇著名的Manus,困在沙盒中的手办
  • Claude Code 则谨慎遵循着技术采用生命周期,和 Early Adopters 一起探索产品形态,无论是 MCP、 Agent Skills,都是在渐进性的融入用户数据和工作流实践。

这种对 TMF(技术市场匹配)的理解很难说谁对谁错,但我更接受后者。

Manus 不再通用

这篇帖子【到底都是谁在用 manus 和付费?】有很多 Manus 付费用户分享了自己的使用场景,可以看到 Manus 已经不属于通用 Agent 了,而是更擅长 data 驱动的 research 能力,能够进行复杂的 CSV 文件处理和客户信息爬取,相比其他产品可以更好地完成广义的数据处理和分析工作,用于分析研究,比如最近和 Similarweb 的合作, Manus Pro 用户再做调研时 Agent 会调用 Similarweb 的付费数据作为依据。

Claude Cowork 是最终态吗

原始观点

Cowork 是面向非编码场景的 Claude Code

Claude Cowork 现阶段的本地化实现方式肯定是不合理的,使用了苹果虚拟化框架 VZVirtualMachine,下载和启动了一个自定义的 Linux 根文件系统,并把经授权可操作的文件挂载进去 https://gist.github.com/simonw/35732f187edbe4fbd0bf976d013f22c8

接管个人电脑,包括浏览器、其他桌面软件等等,只要和人在一个界面争夺控制权的(主打 get job done 的)Agent 产品都没有未来。 Agent 产品肯定是要 Scaling(杠杆化)个人时间的,同一时刻会有成千上万的 Agent 操作"桌面软件",来完成你分发的任务才是合理的。

不过之后搬上云端就无敌了,看到下面这张图,拼图好像已经全了,接下来就是大规模调度和管理 Stateful Sandbox 工程实践了,比如 flyio 新发布的 Stateful sandbox 产品 https://sprites.dev/,The age of sandboxes is over. The time of the disposable computer has come。

相关推荐
我命由我123453 小时前
U 盘里出现的文件 BOOTEX.LOG
运维·服务器·经验分享·笔记·学习·硬件工程·学习方法
W.W.H.4 小时前
嵌入式常见面试题——操作系统与RTOS篇
linux·经验分享·操作系统·rtos
中屹指纹浏览器4 小时前
2026指纹浏览器性能优化实战:多环境并发与资源占用管控技术
经验分享·笔记
其实秋天的枫6 小时前
【26专四】英语专业四级TEM4历年真题及答案解析电子版PDF(2009-2025年)
经验分享·pdf
优化控制仿真模型6 小时前
26年初中中考英语大纲词汇1600个电子版PDF
经验分享·pdf
优化控制仿真模型6 小时前
【26专四】英语专业四级TEM4历年真题及答案电子版PDF(2009-2025年)
经验分享·pdf
T700_6756 小时前
缺少DLL文件怎么办?使用游戏运行库一键修复,告别繁琐手动安装
经验分享
W.W.H.6 小时前
嵌入式常见面试题——硬件与中断篇
经验分享·单片机·嵌入式硬件
测绘第一深情7 小时前
Transformer:从基础原理到自动驾驶 BEV 矢量化地图构建
开发语言·人工智能·经验分享·深度学习·机器学习·自动驾驶·transformer