# 什么该交给 AI，什么自己来：一个工程师的 4 象限决策法

什么该交给 AI，什么自己来：一个工程师的 4 象限决策法

第 2 篇 · 四象限任务分类法

1. 同一个 AI，同一个早上，两件事

上个周末的早上，我在做 ScoreMe 的开发。那一天我用同一个 Claude Code，做了两件事。

第一件 ：让它生成 ScoreRecord 模型的 Django migration，加一个 model_name 字段记录每次评分用的是哪个 Qwen 模型。我写了一个三要素 Prompt------目标、约束、验收讲清楚------5 分钟之后 migration 跑通、单元测试通过、提交上线。

第二件：让它帮我决定"免费用户用完 3 次后，整个付费转化路径该怎么设计"。我同样写了一个三要素 Prompt，里面塞满了上下文：产品阶段、目标用户画像、当前漏斗大致形状。AI 给了三个方案，看起来都有道理。我选了一个上线，三天后看效果，远不如我之前手感拍的那一版。我又花了一个晚上把整个路径全部回炉。

同一个 AI，同一套 Prompt 方法，结果天差地别。我后来想明白了：第二件事根本就不该让 AI 来决定。

上一篇讲了怎么把 Prompt 写好。但比"怎么写"更上一层的问题是------这件事，到底该不该让 AI 做？

2. 更细的 Prompt 救不了这种翻车

我一开始也以为是 Prompt 没写好。

我把那个弹窗的 Prompt 又改了两版------加了更多上下文、更明确的目标、更紧的约束、更可量化的验收。每一版 AI 都能给出"看起来更专业"的方案。但我心里越来越清楚：问题不在它给我多少个方案，问题在我自己也不知道哪个方案是对的------AI 也不知道。

Prompt 三要素解决的是执行层问题------你已经决定让 AI 做这件事了，问题是"怎么交代清楚"。三要素能让 AI 把执行做得很稳。

但还有一类问题在更上一层------决策层：这件事到底应不应该交给 AI？

决策层的判断有两个维度：

需求明确度：你自己心里有没有一个"对的答案"，AI 只是帮你产出？还是你自己也不知道答案？
风险高低：如果 AI 做错了，你能在 5 分钟内回滚？还是会直接影响付费用户、上生产、需要数据回填？

这两个维度，决定了你应该用什么方式让 AI 介入------而不是要不要让它介入。

3. 四象限：明确度 × 风险

把这两个维度交叉，得到 2×2 = 4 个象限。每个象限对应的人机协作模式完全不同：

	需求明确	需求模糊
低风险	执行区：AI 全做	探索区：AI 当陪练
高风险	审查区：AI 出草稿，	决策区：自己来，
	人逐行 review	AI 最多帮查资料

执行区（明确 + 低风险）：放手让 AI 做。这类任务你心里有标准答案，AI 错了你 5 分钟能回滚。比如生成 Django models、写 REST 脚手架、补单元测试、生成 Docker Compose 模板。这种事自己写是浪费时间。

审查区（明确 + 高风险）：AI 出草稿，但你必须 review 每一行。你知道目标是什么，但任何错误都会上生产、影响付费用户、或者改起来代价高。比如付费弹窗文案、价格展示组件、用户次数扣减的事务逻辑。AI 写得快没用------错一个字符，生产就出事。

探索区（模糊 + 低风险）：你自己也没标准答案，但试错成本低。这种场景 AI 是非常好的陪练------给你 3 个方向、5 个备选、10 个改写版本。你不需要它给"对的答案"，你需要它扩你的搜索空间。比如评分 Prompt 调优、错误提示文案、loading 态文字。

决策区（模糊 + 高风险）：自己来，AI 最多帮你查资料。这一类任务你自己也不知道答案，但错了代价很大。把这种事外包给 AI，你拿回来的"看起来很专业"的方案，可能恰好是平均化的、缺乏判断力的、躲过了所有真问题的------比如定价策略、付费转化路径、MVP 边界。

90% 的"Prompt 写得很好但结果还是翻车"，都发生在错配象限。

4. 各模块的真实分配

我把这个产品所有开发任务拉出来过一遍四象限。下面这张表是真实记录：

模块	内容	象限	AI 介入方式
accounts	Visitor 模型、visitor_id 字段	执行区	AI 全做，我审 diff
scoring	Django REST 接口骨架	执行区	AI 全做
通用	单元测试、Docker Compose	执行区	AI 全做
billing	UserQuota 数据模型 + migration	执行区	AI 全做
billing	次数扣减的事务逻辑	审查区	AI 草稿，我逐行 review
scoring	评分 Prompt 调优	探索区	AI 给版本，我跑样本决定
前端	错误提示、loading 文案	探索区	AI 给 5 版，我挑
前端	转化弹窗的 CTA 文案	审查区	AI 草稿，我逐字过
架构	是否引入 Redis 做异步队列	决策区	AI 退后，我自己定
产品	定价的设定	决策区	AI 退后，我自己定
产品	MVP 必须实现 / 暂不实现的边界	决策区	AI 退后
产品	付费转化路径设计	决策区	AI 退后

几个细节值得展开。

次数扣减为什么进了审查区：这段代码逻辑上很明确------"先扣 paid_count，再扣 free_count_today，今天的免费次数过零点重置"。但它直接管钱：少扣一次，付费用户就觉得被坑；多扣一次，免费用户就提前撞付费墙。错任何一边，转化都崩。所以即使逻辑明确，AI 草稿也必须我逐行过。这种"逻辑明确但风险高"的代码，是审查区的典型------和"逻辑明确且低风险"的脚手架代码，差的是后面那一步盯输出。

评分 Prompt 调优为什么不在执行区：第 1 篇里那个 Prompt 看起来很标准化，但调优过程其实没有"对的答案"------你不知道加哪一句话会让评分更准，也不知道哪一句话会让用户觉得"它真的懂我"。我让 AI 做的事是"针对这一类用户输入，给我 5 个 Prompt 改写版本"，然后我自己跑真实样本看哪一版稳。AI 是陪练，不是答题机。

我翻车的那一次：早期我把"visitor_id 的生成策略"放到了执行区------这事儿听起来很明确（"给匿名用户一个唯一标识"），AI 也确实快速给了一个 UUID 方案。但这事儿的真实复杂度不在生成方法上，在"用户清空浏览器后是不是同一个人""跨设备访问算不算同一个人""这影响不影响免费次数被滥用"。这些问题决定了 visitor_id 是产品决策，不是技术执行。我一开始没想清楚就让 AI 写完了，结果上线后发现一些边缘情况下识别会出问题------本质是我把决策区的活当执行区干了。这个洞后来在 v2 补上了，但修它花的时间，是当初省下写代码的 10 倍。

5. 30 秒决策清单

下次你准备让 AI 做一件事，按下回车前先问自己 3 个问题：

markdown 复制代码

1. 我能在一句话里说清"做对了长什么样"吗？
    能 = 需求明确    不能 = 需求模糊

2. 这个改动如果错了，能在 5 分钟内回滚吗？
    能 = 低风险      不能 = 高风险

3. 这事儿如果错了，会不会影响付费用户 / 上生产 /
   需要数据回填？
    不会 = 低风险    会 = 高风险

然后对照象限：

复制代码

明确 + 低风险 → 执行区：放手让 AI 做，审 diff 即可
明确 + 高风险 → 审查区：AI 出草稿，你逐行 review
模糊 + 低风险 → 探索区：AI 给方向，你做选择
模糊 + 高风险 → 决策区：自己来，AI 最多帮查资料

这套清单 30 秒就能过完。但它能帮你避开那一类"Prompt 写得很好但结果还是翻车"的场景------因为那些翻车，从来就不是 Prompt 的问题。

6. 收尾

上一篇讲怎么把 Prompt 写好------这是 AI 协作的"执行层"。这一篇讲什么时候根本不该交给 AI------这是"决策层"。两件事合起来，才是 AI 协作的及格线。

单点的 Prompt 技巧救不了错配象限的任务。但反过来，象限分对了，三要素 Prompt 才能稳定发挥威力。开头那个"我同样写了三要素 Prompt 但还是翻车"的故事，本质就是把决策区的活当 Prompt 题做了------再细的 Prompt 也救不回来。

ScoreMe 是我用本系列这套方法论搭的付费产品。如果你好奇"4 周时间一个独立工程师用 AI 协作能做到什么程度"，评论区扣 "1" 或者私信我，我把链接发给你（知乎站内规则不让直接挂外链）。

下一篇会写4 个工程师每天都用得上的 Prompt 模板------读项目 / 修 bug / 加功能 / 重构。下一篇见。

关于作者

AI + 工程落地工程师，15 年系统工程经验，做过架构师 / Tech Lead / 独立 builder 三种角色。现在专注 ScoreMe（AI 评分官），用 AI 协作把想法快速变成可运行的付费产品。本系列分享我在这条路上沉淀的方法论与踩坑复盘。