我用 13 个 Agent 跑完一个 AI 工具站,发现真正难的不是写代码

大家好,我是孟健。

这几天我用 13 个 Agent 跑完了一个真实 AI 工具站,最后发现:出问题最多的地方,不是写代码,是交接。

现在 Codex、Claude Code、Cursor、Copilot 都在往同一个方向走:多 Agent、后台任务、并行执行、远程接管。

OpenAI 把 Codex App 定位成"command center for agents",支持多个 coding agent 并行运行和长任务协作。GitHub Copilot cloud agent 可以直接从 issue 启动,自动创建 PR,请求人工 review。

Cursor 也在往 automations、background agents 方向推,支持 schedule、GitHub、GitLab、Slack、webhook 等多种触发方式。

工具厂商都在把 coding agent 平台化。能力变强后,新的问题也冒出来了:多 Agent 的时代,谁负责交接?


01 多 Agent 不是多开几个聊天窗口

多开 Agent 很容易。难的是每一棒都能被下游接住。

一条真正能用的 Agent 流程,必须回答 4 个问题:

  • 输入是什么? 上一棒给了什么。
  • 输出是什么? 这一棒交出什么。
  • 证据是什么? 怎么证明这棒 DONE 了。
  • 什么时候必须停? BLOCKED 的条件是什么。

这 4 个问题回答不清楚,Agent 越多,噪音越大。

Agent 越多,越不能靠感觉推进。


02 我真实跑了一遍:aicodingpricing.com

案例是 aicodingpricing.com,一个比较 AI 编程工具定价的工具站。

从关键词到上线后复盘,13 个 Agent 依次接棒:市场研究 → SEO 复核 → PRD → 定价 → 合规 → 文案 → 设计 → 前端 → 后端 → QA → 运营 → 数据复盘,加一个主持台负责节奏和 GO/NO-GO。

每一棒都有明确的输入来源、输出格式、交接文档和暂停条件。站做出来了,而且不止一个首页,还包括具体的对比页面:

这个案例真正有价值的地方,是它暴露了哪些位置------如果没有闸门,就会出事。


03 13 个 Agent 怎么分工

写成可读的版本:

  1. 市场研究 --- 判断关键词有没有机会
  2. SEO 复核 --- 看 SERP 竞争难度和页面矩阵
  3. PRD --- 把机会变成页面、功能、验收标准
  4. 定价 --- 看竞品、成本和套餐边界
  5. 合规 --- 检查文案声明、数据风险
  6. 文案 --- 生成首页、功能页、结果页 copy
  7. 设计 --- 出页面结构和视觉方向
  8. 前端 --- 实现页面与交互
  9. 后端 --- 处理 API、存储、鉴权、支付
  10. QA --- 功能、异常态、移动端、SEO、合规、埋点
  11. 运营 --- 提交目录、冷启动、外链和渠道
  12. 数据复盘 --- 接管 GSC、Bing、GA4、Plausible、Clarity
  13. 主持台 --- 负责节奏、BLOCKED、GO/NO-GO、交接

ShipSolo 把这 13 个阶段封装成 Skills,每个阶段有标准输入和输出模板:

一个 Agent 做错事不可怕,可怕的是错事被包装成 DONE 传给下一棒。


04 真正踩坑的地方

跑完这一遍,坑主要在 4 处。

SEO / 合规 NO-GO 不能被情绪压过去。 aicodingpricing.com 选词阶段,有几个关键词搜索量看起来不错,但 SERP 前三页全是大厂官网和头部评测媒体。市场研究 Agent 打出 BLOCKED,原因是短期渗透机会极小,继续推进只是在错误的方向上浪费所有后续棒次的时间。这个结论不好听,但它卡住了。文案和设计没有在错误的词上把功夫用完。合规同理:法务没有给出明确结论之前,页面不能上承诺性语句,不能用"更便宜""保证准确"这类表述。这一关含糊过去,后面所有棒都在做无效功,上线了也要全部推翻重来。

PM gate 必须在设计和研发前卡住。 这次做站,路由合约在 PRD 阶段就固定了:哪些是静态页、哪些要接 API、对比表的字段定义、结果页的几种状态。这件事没有定,设计稿就是一次性的。前端接了再改字段,要动 API、动组件、动设计,每一层都要返工。路由合约签完之后,设计才启动,前端才接任务。这个顺序看起来慢,但它省掉的是最贵的那部分------已经做出来的东西被推翻。

QA 不能缺席,也不能提前。 QA 阶段覆盖 6 类检查:功能逻辑对不对、异常态有没有兜底(空状态、超长内容、网络断开)、移动端是否跑偏、canonical 和 sitemap 是否正确生成、合规文本是否与法务稿保持一致、埋点事件是否真实触发并携带正确参数。每一类都要有截图存档,逐项打勾,不是"大体没问题"。"大体没问题"这四个字,上线后会变成 GSC 收录问题、Clarity 热图空白、转化漏斗断层。任何一项缺席,上线之后就是黑盒。

数据接管不能只看脚本有没有粘贴进去。 GSC、Bing、GA4、Plausible、Clarity 每一个工具都要走四个验证状态:未配置 → 已配置无数据 → 有数据不可归因 → 有数据可归因。这四态之间的跨度可以是几小时,也可以是几天,取决于流量体量和工具本身的采样机制。有脚本不等于有数据,有数据不等于能做决策。不提前按状态逐步对账,D7 复盘时面对的就是一堆猜测,复盘等于没做。

BLOCKED 不是失败,是安全阀。


05 9 个硬闸门

每个阶段能拦下的问题,都要拦在便宜的时候。

  1. Keyword gate --- 关键词竞争度、搜索意图、变现路径,三项同时成立才进 PRD。只有搜索量没有转化意图,是最浪费时间的方向,比直接做错还难发现。
  2. Route contract --- 页面列表、URL 结构、数据状态、canonical 规则、sitemap 收录逻辑,PRD 完成后立刻锁定,设计和前端共同签字确认,后续不允许单方面改。
  3. SEO-Copy Freeze --- SEO 关键词矩阵和文案草稿冻结后,设计才开始排版,前端才接内容。文案改一次,设计稿废一版,前端改一轮,这是三倍代价,要在这一关拦住。
  4. Content-fit matrix --- 每个页面都要能回答:为什么存在、目标用户是谁、他们来了之后要做什么。答不上来的页面,做出来也没人看,SEO 也不会收录。
  5. Data Contract --- 埋点事件名、参数结构、口径定义、四态验收标准,在前端开发前写清楚,QA 按合同逐项验,不是上线后发现缺口再补救。
  6. PM gate --- 产品验收必须覆盖所有页面状态,包括空态、异常态、边界值,通过后才进大规模实现,不允许"先做完再补产品文档"。
  7. QA / SEO / Compliance GO --- 三者独立给出结论,同时通过,才算准备上线。任何一个 NO-GO,整个流程暂停,不允许带着问题上线"先看看效果"。
  8. Analytics 四态验证 --- 逐步确认,每一态截图存档。可归因才能做决策,之前的所有状态都是过渡态,不算接管完成。
  9. D7 / D14 / D30 复盘 --- 上线不是结束。D7 看收录和首批流量来源,D14 看关键词排名变化,D30 做完整的转化和收入复盘。没有这三个节点,上线等于扔出去不管了。

NO-GO 的价值,是把错误拦在便宜的时候。


06 给想复制的人

不要上来就追速度。

先从一个站把 13 个阶段完整跑一遍。不求快,求每一棒都能被接住。每个阶段只要求 4 件事:清楚的输入、明确的输出、可验证的证据、允许 BLOCKED 的暂停条件。这 4 件事到位,哪个 Agent 跑慢了、哪个阶段需要人工介入、在哪里卡住,都有地方可查。

这套流程真正发挥作用的时刻,往往是你最想跳过某一关的时候。市场研究打出 BLOCKED,你已经想好了站名、想好了页面结构,甚至规划好了上线时间------但闸门不开。这种时候被拦下,代价最小。绕过去继续推,代价在后面,而且越到后面越贵。

aicodingpricing.com 这次,市场研究和 SEO 两棒都 GO 之后才进 PRD,路由合约锁定之后文案和设计才同步推进,QA 三项全部 GO 之后才上线。每一棒都有明确的交出物,下一棒才有东西可以接。节奏不乱,靠的是闸门,靠的是每一棒都有人接。

领航计划和 ShipSolo 教的是把 AI 编程变成一条可上线、可复盘、可迭代的交付流程。复制的是这套交接逻辑,每一棒的输入输出要求,和允许 BLOCKED 的流程文化。


AI 编程接下来会越来越强。

强工具只会放大原来的流程。流程清楚,它放大交付。流程混乱,它放大混乱。

工具已经够快了。现在该补的,是闸门。


👋 我是孟健,前腾讯 T11 / 前字节技术 Leader,现在全职做 AI 编程。

🔥 更多 AI 编程实战:

  • GitHub:@mengjian-github
  • 专栏:AI编程实战

觉得有用?点赞+收藏 就是最大支持 🙏

相关推荐
小虎AI生活3 小时前
WorkBuddy 直接把 ima 知识库内置了,这件事比你想的大
aigc·ai编程
半杯浊酒任沉浮5 小时前
Claude Code的安装及配置
agent·ai编程·claude
chuilab5 小时前
CodeGraph:让代码理解进入「索引时代」
ai编程
Shirley~~5 小时前
figma Mcp
前端·ai编程
ftpeak7 小时前
深入浅出 LoongSuite Python Agent:让你的 AI 应用「透明化」(下篇)
开发语言·人工智能·ai·ai编程·ai开发
蔡俊锋7 小时前
为Agent重新设计云:Vibe Coding背后的新基建
人工智能·ai编程
麦哲思科技任甲林7 小时前
从OSSP 到Harness:AI 时代的软件过程演进之路
ai编程·harness·skills设计·ossp·pdp
掘金一周7 小时前
AI时代的“大厂裁员”到底裁的是程序员,还是网民的智商? | 沸点周刊 5.28
openai·ai编程·沸点