2026年,程序员已经快被大模型淹没了。各大厂商在参数规模和训练数据的赛道上狂奔,似乎奔着一个极限终点而去。程序员们每天盯着 LMSYS Chatbot Arena 和 SWE-Bench 的实时排名,精挑细选着最好的模型来辅助编程,生怕自己的 Token 被劣质模型污染。然而,他们没意识到的是,顶级大模型之间的差距已然微乎其微。甚至连 Cursor 这样的头部 IDE,其自研模型底层都换上了中国 Kimi 2.5------一个在一年前还未上市的小公司模型,这在以前是不可想象的。
2026才到3月,AI 行业的风向标就已经变了。比起大模型,大家更爱谈论"龙虾"------Agent。为什么?就在各大模型厂商还在无止境地"华山论剑"比拼内功时,OpenClaw 横空出世,一时爆火。这就好比一群绝世高手正在比拼内力,杨过却骑着大雕从天而降。相比高手,杨过内力或许相当,但他多了一只雕(工具/Agent),能力便指数级升级。
OpenClaw 的爆火可谓恰逢其时,一定程度上也归功于它蹭了 Claude Code 的流量。两者不仅在命名上有微妙的关联,更关键的是,OpenClaw 主打"极简操作"的卖点,恰好填补了 Claude Code 在易用性上的空白。大量在 Claude Code 复杂配置面前望而却步的用户,顺势流向了 OpenClaw,这波"截胡"可谓精准。 事实上,很多大厂早就在养自己的"龙虾"了。像腾讯这样不以自研大模型闻名的公司,早就立项了 WorkBuddy。只是在 OpenClaw 火了之后,WorkBuddy 才反过来蹭了一波热度,打着"自研最强龙虾"的噱头正式出道。
其实往前推到 2025 年,就已经有了 Manus 的雏形,当时也小火了一把。但为什么当时没有像现在的 OpenClaw 一样现象级爆火?我想,可能是当时的大模型"内功"还不够深厚。比如,GPT 系列在 SWE-Bench 上的通过率从 2024 年的不到 50% 飙升至如今的 95% 以上;国内的 GLM-5 更是通过异步强化学习,在复杂代码重构任务中实现了近乎零报错的执行效率。 这些突破让"写代码"这件事彻底从"艺术创作"变成了"流水线生产"。彼时,程序员的精力还聚焦在如何用 AI 写好代码上,毕竟相比整理桌面文件这种琐事,写代码才是硬骨头。不把大模型的能力推到极致,他们是不会罢休。 当大模型的能力触及天花板,各大厂的差距不断缩小,你在对话框里下达的任务已经无法体现排名的优势了------排第 1 和第 10 的模型都能完美解决问题。这时候,大模型还能卷什么?卷并发,卷协作。这其实就是 Agent 的需求爆发期。
现在我的电脑上,已经养了一窝"龙虾":WorkBuddy、QClaw、悟空、还有云虾。IDE 方面,我也装了 Claude Code、Cursor、Trae(国际/国内版)、Code Buddy(国际/国内版)、Qoder。这里面最牛的仍然是 Claude Code,它的 Cowork 模式支持开启多 Agent 协同编程,它不再局限于单线程的问答,而是允许同时启动架构师 Agent、开发 Agent 和测试 Agent,三个身份在同一个工作流里互斥又互补,像极了真实团队里的结对编程。 国内的 Qoder 也推出了专家团模式,据说反馈不错,我准备试一下。WorkBuddy 也有 Team Mode 模式,我尝鲜了一下,感觉还算中规中矩。
那么,回到标题那个问题:养这么多龙虾,我该吃哪只?
答案其实很现实------谁最懂"规矩",我就吃谁。
在这个 Agent 遍地走的时代,我不缺龙虾,缺的是能组建成一支纪律严明的"数字军队"的精锐。相比 Claude Code 的 Cowork 这种能协同、懂规划、守安全边界的"指挥官",OpenClaw 只是个会乱跑的"散兵游勇"。听说 Claude Code 现在也出了 Computer Use 功能,能直接接管操作系统,这才是真正的降维打击。
所以,别被那些只会剥虾壳(简单操作)的网红虾迷了眼。我们要吃的,是那只拥有最强神经系统(工作流)、能指挥若定、替我们解决复杂难题的龙虾。至于其他的?就让它们继续在缸里长着吧,毕竟,有些龙虾养大了才发现是皮皮虾,也没啥吃头。