一个 Claude Code + Codex 用了 5 万多刀的人,对于 AI 的理解。
这篇不是工具教程,网上教你用 AI 的文章和视频已经太多了。我想说的是烧了这么多钱和时间之后,我真正想明白的几件事。不管你是写代码的、做产品的、还是完全不碰技术的人,这些东西都跟你有关。
一、我的路径
从 Copilot 出世开始,tab 补全代码,那时候觉得这东西挺好,省了不少打字的时间。
然后是写 plan,让 AI 按计划执行。再到 agent 模式,让它自己探索、自己决策、自己写代码。再是 MCP,把各种工具连起来,让 AI 能调用外部能力。然后是 skill,把经验封装成可复用的能力包。再到 multi-agent,多个 AI 并行协作。最后到了现在的 harness,让 AI 军团的协作更加流畅可控。
5 万刀花在哪了?可见的有 6 个项目、4 个小工具、1 套 multi-agent skill、1 套 harness kit,还有很多不可统计的地方。
Harness 要解决什么?我把它拆成四层:
- 能力层:AI 能用什么规则、什么工具
- 连接层:系统之间怎么连
- 构建层:想法如何按规范产出
- 管控层:产出如何追踪和审计
这四层不管你是做项目还是做业务,都是通用的。区别只是每一层填什么内容。
之前行业里的动向也在验证这个方向------Anthropic 的人用 16 个 Claude 并行写了一个 C 编译器,10 万行代码,花了 2 万刀,几乎无人干预。他们最大的经验是什么?不是模型多聪明,是测试质量决定一切、为 AI 的认知特点设计执行环境、用 CI 防止回退。本质上就是在做 harness 这件事。
OpenAI 也发了一篇《Build AI-Native Engineering Team》,核心框架是把软件开发的每个阶段拆成三层:哪些委派给 AI、哪些人来审查、哪些人必须拥有。说白了就是在每个环节定义清楚人和 AI 的边界------这不就是 harness 的管控层在干的事吗?
Claude Code 后面上线了 Agent Teams------一个 leader 协调多个 teammate,共享任务列表,互相通信,各自在独立上下文里干活。HN 上讨论很热,有人搞了 9 个 agent 跑 7 阶段 Kanban,也有人说"这不是在模拟人类组织架构吗"。我的看法是:多 agent 的价值不在于模拟人类分工,在于隔离上下文和并行执行。但前提是 plan 质量够高------plan 烂了,9 个 agent 只是 9 倍速制造垃圾。
二、踩过最大的坑
烧了这么多钱,踩过最大的坑是什么?
相信 AI 会自动纠正记忆和上下文。
一开始你会觉得 AI 记住了你的偏好、你的项目结构、你的决策逻辑,它确实在短期内表现得很好。但越往后走越偏------它开始把你的规则和它自己的推断混在一起,产出的东西半对半不对,你还不好发现问题在哪。
最致命的是上下文压缩。对话一旦变长,系统会压缩上下文,被忘掉的东西比你想象的多。你以为它还记得三天前你定的那个约束,其实早被压缩掉了。更糟糕的是,你带入新的上下文试图补救,它也没办法做准确的总结------因为压缩后的记忆里已经有脏东西了,新的信息建立在错误的地基上。
这个坑教会我一件事:不要信任 AI 的记忆,要信任你给它的结构。 所有关键信息必须显式地写在执行环境里,不能靠对话历史。上下文窗口有限,记忆会失真,但写下来的东西不会。
三、用好 AI 的核心:输入、决策、环境
真正会用 AI 的人,不是用多好的 MCP,写多好的 skill,有多好的规范。这些都是后置的,都是结果,不是起点。
要想达到极佳效果,首先聪明的 AI 很重要。Claude、Codex 这类模型的能力天花板明显更高,这决定了基座能力的上限。基座不行,上面搭什么都是空中楼阁。
其次,对于 AI 的理解也很重要------这从根本上决定了你用 AI 的走向。有的人喜欢让它当力工,有的喜欢让它做决策。
我对于 AI 的理解很简单:高质量的输入和高质量的决策即可,剩下的全权交给 AI。
而这两项也是最难的。
高质量输入不是 prompt 写得好。是你给 AI 的执行环境足够完整------系统边界在哪、业务上下文是什么、领域模型长什么样、约束和红线在哪里、什么证据才算做完。简单说:把一个聪明但没有业务背景的人需要知道的所有东西,结构化地给到 AI。
高质量决策不是每一步都盯着。是在关键节点介入------方向对不对、边界有没有越、产出能不能验收、风险是否可控。其余的,放手。
在这个社会上人是环境的产物,在硅基世界里 AI 也是环境的产物。你给到 AI 一个什么样的执行环境,决定着它的思考和边界。不要怕它推理的结果,推理是它的本职工作。有问题很正常,人都会犯错,为什么要让 AI 不能犯错?允许错误发生,可控才是需要考虑的。
风险与回报挂钩。当一个人因为 AI 负责的事情多了,风险也会变多------不用 AI 风险也会变多。风险和回报永远是成正比的。
AI 真正的门槛不是技术,是认知。是你能不能把一个模糊的业务问题,拆解成 AI 可以执行的结构化描述。是你能不能判断 AI 的产出是好是坏。是你在 AI 犯错的时候,能不能快速定位问题在哪------是输入不够、是边界没定义清楚、还是这件事本身就不该交给 AI。
技术门槛会越来越低。模型越来越聪明,工具越来越傻瓜化,以后可能连代码都不用写就能搭出一套系统。但认知门槛不会降------你对业务的理解、对问题的拆解能力、对产出质量的判断力,这些东西没有捷径。AI 放大的是你的认知,不是你的手速。
还有一点:skill 不要太多。少量的放全局,其他全沉淀到具体项目里。AI 不是喂越多越好,约束越多越好------给太多反而会限制它的思考空间。你要做的是给它足够的上下文和边界,然后让它自己在里面找到最优解。过度约束和没有约束一样糟糕。
低质量输入加低质量决策,AI 只是高效制造垃圾。高质量输入加高质量决策,AI 才是真正的生产力杠杆。
四、AI 提效一定是自上而下的
这是我最想说的一件事。
AI 提效不是某个员工偷偷用工具快了一点。它的本质是让数据、经验、知识在不同岗位之间重新流转协作。这个属于 AI 落地的基建,是业务协作的基础。
所以它一定是自上而下的,最好是老板和管理者牵头。不是因为老板更懂 AI,而是因为这件事改的是协作结构,不是某个人的工作方式。
提供高质量的 AI 环境和执行高质量的决策,是真正 AI 提效的体现,其他都是半瓶子晃荡。
但说实话,短时间来看只有少数公司可以做到。对业务的复杂度也有要求------起码你的业务得是可以被结构化描述的。推 AI 往往意味着重写很多东西,而且让 AI 了解很多业务上的东西也是需要时间的。我觉得这是每一家公司都会遇到的问题。高德、饿了么在分享大会上也说了,他们也只在新业务上用,就看谁的旧包袱少了。
五、只需要两种人,其他人会被淘汰
AI 落地真正需要的是两类角色:AI 设计者和 AI 执行者。
AI 设计者:对业务非常了解,知道哪些流程可以 AI 化,哪些不能碰,哪些经验值得沉淀。业务专业,就是 AI 的沙盒环境专业。你不懂业务,就不知道该给 AI 什么边界。
AI 执行者:对 AI 相关的开发非常熟悉,能把业务知识变成可运行、可复用、可验证的系统。执行者的能力直接导向业务 AI 落地的效率。
两个角色都必须对业务非常熟悉。这两者配合的结果是什么?是把行业专家的能力蒸馏为 skill,复制给团队每一个人,提高整体作战水平。
所以不会因为 AI 被开掉的人只有一个共同点------你能为关键结果负责。你负责的东西,你能说清楚为什么这么做、怎么验收、出了问题怎么兜底。其他人?变量。
小厂大厂里当传话筒的人至少有一半。有很多事领了活儿只想甩出去,并从别人那里拿到想要的结果。在即将到来的 AI 时代,这类人的下场就是被淘汰。
专业的人做专业的事,专业的事只需要专业的人。真正干活的人,在这个时候应该被重视。
六、不要给 Agent 套岗位
现在岗位协作 agent 很火。你的 agent 和我的 agent 去聊天,有事儿找我的机器人去吧。这是一种公司环境下的选择。
但我现在越来越觉得,不应该给 agent 设限岗位,慢慢的,公司也不应该给人设限。
岗位是工作场景赋予人的标签,方便 HR 管理,也方便工作归责到人。而 agent 不需要这个。抛弃 title,AI 应该对产出直接负责。
Agent 可以也应该在工作推进的环境里不断地自己寻找和构建需要的东西。这些内容人也不用、也不应该去关心。
你用 AI 到什么程度,取决于你对 AI 的理解。
七、未来会怎样
我现在做的 harness,本质上还是人在给 AI 写规则------定义边界、维护契约、设置验证门禁。这是当下最务实的选择,但它是过渡态。
先说一个判断:自己去从零做一个 Agent Harness,价值不大了。怎么做也做不过模型公司,模型一升级好多活都白干了。比如我自己就经历过------花了几周沉淀的约束体系,模型能力一跳,有些规则直接变成了多余的。而且 harness 的迭代速度太快了,小 team 根本跟不上。一切适合就好,不要追求完美的框架,够用、能跑、能迭代就行。
但是,基于成熟的 Agent Harness 去做垂直方案,大有可为。
MCP 解决了连接的问题------AI 能调用什么工具。Skill 解决了领域知识的问题------AI 知道什么。但这两个加起来,离真正的业务落地还差很远。垂直领域还有大量的事情需要人去做:
- 为老的工作流重新设计 AI Native 的 Agent 工作流
- 在 Human-in-the-Loop 的部分,重新设计 UI 和 UX 交互
- 垂直领域的高质量数据整理
- 把行业专家的判断路径变成 AI 可执行的流程
这些事情是模型公司做不到的。它们提供基座和基础设施,但不懂你的行业、不懂你的业务、不懂你的用户。这些需要行业里的人去共建。
Agent 是未来的操作系统。几家模型公司提供模型和 Harness,就像苹果和谷歌提供 iOS 和 Android。而真正的价值,在上面跑的那些应用里。谁先在自己的领域里把 AI Native 的全链路跑通,谁就有壁垒------这个壁垒不是技术壁垒,是业务理解的壁垒。
往后再看几步:
AI 自身会更聪明。 基座能力还在快速提升,推理、长上下文、多模态,每一项的进步都会让 AI 需要的"人工约束"变少一点。今天你需要写一大堆规则告诉它什么能做什么不能做,明天可能一句话它就懂了。
记忆和上下文会做得更细。 现在的记忆还是粗粒度的,未来 AI 应该能记住每一次执行的细节------哪里出过错、哪个契约经常变、哪个验证门禁是多余的。Harness 从人写的静态规则,变成 AI 基于历史执行数据自我迭代的动态约束。
垂直领域的自动流程化一定是下一个爆发点。 不是通用 agent 什么都能干,而是针对具体行业、具体业务场景,把从需求到交付的整条链路自动化。
最终态可能是这样的: 人定义目标和价值观------我们要什么、什么是不可接受的。AI 自己构建执行环境、自己寻找资源、自己验证产出、自己迭代约束。人从"定义边界"退到"定义方向"。从 human-in-the-loop 到 human-on-the-loop,再到 human-over-the-loop。
但这不是今天的事。今天的现实是:你不给它边界,它就没有边界。
八、你真正的资产
AI 时代不只是"用 AI 提效"这一条路。它还催生了一大批衍生品生意,门槛不高,但窗口期有限。今天能做的事,半年后可能就被模型能力的提升抹平了。所以重点不是"这个生意能赚多久",而是在做这些事的过程中,你沉淀下来了什么。
工具会过时,平台会更迭,API 会下线,模型会换代。但有些东西别人拿不走:
- 能力------你拆解问题、设计系统、把模糊需求变成可执行方案的能力
- 思考------你对一个领域的深度理解,你看问题的角度和框架
- 认知------你对 AI 边界的判断,什么该交给它什么不该,什么时候介入什么时候放手
- 审美------你对产出质量的标准,什么是好的什么是凑合的,这决定了你的天花板
- 执行力------从想法到落地的速度和完成度,AI 放大的就是这个
这些才是你真正的资产。AI 时代变化太快,追工具追不过来,追模型追不过来,追风口更追不过来。但如果你在每一次折腾中都在沉淀这五样东西,那不管风往哪吹,你都不会慌。
如果你对这些方向感兴趣,推荐几个值得看的东西:
- Anthropic:用并行 Claude 团队构建 C 编译器------16 个 agent 并行,10 万行代码,最大的经验是测试质量和执行环境设计
- OpenAI:Build AI-Native Engineering Team------每个开发阶段的 Delegate / Review / Own 框架
- Claude Code Agent Teams 文档------多 agent 协作的官方实现,leader + teammate + 共享任务列表
- Claude Code Swarm 编排指南------社区总结的多 agent 编排模式和最佳实践
- HN 讨论:Claude Code 的 Swarms 功能------社区对多 agent 模式的真实反馈和争论
结语:应作如是观
AI 只是一个放大镜。网上铺天盖地的新闻、工具、教程都是催化剂。你才是最重要的。
当 AI 的执行力拉满后,你对生活的感受,对世界的好奇心,做出的决策,遇到问题时的韧性,才是这个时代最重要的。
《金刚经》里有句话------
一切有为法,如梦幻泡影,如露亦如电,应作如是观。
工具会迭代,模型会更新,排行榜每周都在变。这些都是空幻不实的现象,容易让人陷入执著和追求,带来焦虑和迷失。
平台不同,环境不同,人的境遇也不同。有人在大厂拿着资源往前冲,有人刚被裁员坐在家里不知道下一步该干什么。有人身边全是懂 AI 的人可以交流,有人连个能问的人都没有。这些都是现实,不用比较,也比较不了。
但有一件事是一样的:你的想法还在。
被裁了不代表你的能力消失了,不代表你这些年积累的东西没有价值了。恰恰相反------当你不再被一个岗位定义的时候,你才有机会重新想清楚:我到底擅长什么,我到底想做什么,我能为什么结果负责。
AI 时代最不缺的是工具,最缺的是知道自己要什么的人。
不要害怕 AI,拥抱它,用它,但不要被它定义。不要被裁员定义,不要被焦虑定义,不要被别人的节奏定义。
应作如是观。