什么该交给 AI,什么自己来:一个工程师的 4 象限决策法
第 2 篇 · 四象限任务分类法
1. 同一个 AI,同一个早上,两件事
上个周末的早上,我在做 ScoreMe 的开发。那一天我用同一个 Claude Code,做了两件事。
第一件 :让它生成 ScoreRecord 模型的 Django migration,加一个 model_name 字段记录每次评分用的是哪个 Qwen 模型。我写了一个三要素 Prompt------目标、约束、验收讲清楚------5 分钟之后 migration 跑通、单元测试通过、提交上线。
第二件:让它帮我决定"免费用户用完 3 次后,整个付费转化路径该怎么设计"。我同样写了一个三要素 Prompt,里面塞满了上下文:产品阶段、目标用户画像、当前漏斗大致形状。AI 给了三个方案,看起来都有道理。我选了一个上线,三天后看效果,远不如我之前手感拍的那一版。我又花了一个晚上把整个路径全部回炉。
同一个 AI,同一套 Prompt 方法,结果天差地别。我后来想明白了:第二件事根本就不该让 AI 来决定。
上一篇讲了怎么把 Prompt 写好。但比"怎么写"更上一层的问题是------这件事,到底该不该让 AI 做?
2. 更细的 Prompt 救不了这种翻车
我一开始也以为是 Prompt 没写好。
我把那个弹窗的 Prompt 又改了两版------加了更多上下文、更明确的目标、更紧的约束、更可量化的验收。每一版 AI 都能给出"看起来更专业"的方案。但我心里越来越清楚:问题不在它给我多少个方案,问题在我自己也不知道哪个方案是对的------AI 也不知道。
Prompt 三要素解决的是执行层问题------你已经决定让 AI 做这件事了,问题是"怎么交代清楚"。三要素能让 AI 把执行做得很稳。
但还有一类问题在更上一层------决策层:这件事到底应不应该交给 AI?
决策层的判断有两个维度:
- 需求明确度:你自己心里有没有一个"对的答案",AI 只是帮你产出?还是你自己也不知道答案?
- 风险高低:如果 AI 做错了,你能在 5 分钟内回滚?还是会直接影响付费用户、上生产、需要数据回填?
这两个维度,决定了你应该用什么方式让 AI 介入------而不是要不要让它介入。
3. 四象限:明确度 × 风险
把这两个维度交叉,得到 2×2 = 4 个象限。每个象限对应的人机协作模式完全不同:
| 需求明确 | 需求模糊 | |
|---|---|---|
| 低风险 | 执行区:AI 全做 | 探索区:AI 当陪练 |
| 高风险 | 审查区:AI 出草稿, | 决策区:自己来, |
| 人逐行 review | AI 最多帮查资料 |
执行区(明确 + 低风险):放手让 AI 做。这类任务你心里有标准答案,AI 错了你 5 分钟能回滚。比如生成 Django models、写 REST 脚手架、补单元测试、生成 Docker Compose 模板。这种事自己写是浪费时间。
审查区(明确 + 高风险):AI 出草稿,但你必须 review 每一行。你知道目标是什么,但任何错误都会上生产、影响付费用户、或者改起来代价高。比如付费弹窗文案、价格展示组件、用户次数扣减的事务逻辑。AI 写得快没用------错一个字符,生产就出事。
探索区(模糊 + 低风险):你自己也没标准答案,但试错成本低。这种场景 AI 是非常好的陪练------给你 3 个方向、5 个备选、10 个改写版本。你不需要它给"对的答案",你需要它扩你的搜索空间。比如评分 Prompt 调优、错误提示文案、loading 态文字。
决策区(模糊 + 高风险):自己来,AI 最多帮你查资料。这一类任务你自己也不知道答案,但错了代价很大。把这种事外包给 AI,你拿回来的"看起来很专业"的方案,可能恰好是平均化的、缺乏判断力的、躲过了所有真问题的------比如定价策略、付费转化路径、MVP 边界。
90% 的"Prompt 写得很好但结果还是翻车",都发生在错配象限。
4. 各模块的真实分配
我把这个产品所有开发任务拉出来过一遍四象限。下面这张表是真实记录:
| 模块 | 内容 | 象限 | AI 介入方式 |
|---|---|---|---|
| accounts | Visitor 模型、visitor_id 字段 | 执行区 | AI 全做,我审 diff |
| scoring | Django REST 接口骨架 | 执行区 | AI 全做 |
| 通用 | 单元测试、Docker Compose | 执行区 | AI 全做 |
| billing | UserQuota 数据模型 + migration | 执行区 | AI 全做 |
| billing | 次数扣减的事务逻辑 | 审查区 | AI 草稿,我逐行 review |
| scoring | 评分 Prompt 调优 | 探索区 | AI 给版本,我跑样本决定 |
| 前端 | 错误提示、loading 文案 | 探索区 | AI 给 5 版,我挑 |
| 前端 | 转化弹窗的 CTA 文案 | 审查区 | AI 草稿,我逐字过 |
| 架构 | 是否引入 Redis 做异步队列 | 决策区 | AI 退后,我自己定 |
| 产品 | 定价的设定 | 决策区 | AI 退后,我自己定 |
| 产品 | MVP 必须实现 / 暂不实现 的边界 | 决策区 | AI 退后 |
| 产品 | 付费转化路径设计 | 决策区 | AI 退后 |
几个细节值得展开。
次数扣减为什么进了审查区:这段代码逻辑上很明确------"先扣 paid_count,再扣 free_count_today,今天的免费次数过零点重置"。但它直接管钱:少扣一次,付费用户就觉得被坑;多扣一次,免费用户就提前撞付费墙。错任何一边,转化都崩。所以即使逻辑明确,AI 草稿也必须我逐行过。这种"逻辑明确但风险高"的代码,是审查区的典型------和"逻辑明确且低风险"的脚手架代码,差的是后面那一步盯输出。
评分 Prompt 调优为什么不在执行区:第 1 篇里那个 Prompt 看起来很标准化,但调优过程其实没有"对的答案"------你不知道加哪一句话会让评分更准,也不知道哪一句话会让用户觉得"它真的懂我"。我让 AI 做的事是"针对这一类用户输入,给我 5 个 Prompt 改写版本",然后我自己跑真实样本看哪一版稳。AI 是陪练,不是答题机。
我翻车的那一次:早期我把"visitor_id 的生成策略"放到了执行区------这事儿听起来很明确("给匿名用户一个唯一标识"),AI 也确实快速给了一个 UUID 方案。但这事儿的真实复杂度不在生成方法上,在"用户清空浏览器后是不是同一个人""跨设备访问算不算同一个人""这影响不影响免费次数被滥用"。这些问题决定了 visitor_id 是产品决策,不是技术执行。我一开始没想清楚就让 AI 写完了,结果上线后发现一些边缘情况下识别会出问题------本质是我把决策区的活当执行区干了。这个洞后来在 v2 补上了,但修它花的时间,是当初省下写代码的 10 倍。
5. 30 秒决策清单
下次你准备让 AI 做一件事,按下回车前先问自己 3 个问题:
markdown
1. 我能在一句话里说清"做对了长什么样"吗?
能 = 需求明确 不能 = 需求模糊
2. 这个改动如果错了,能在 5 分钟内回滚吗?
能 = 低风险 不能 = 高风险
3. 这事儿如果错了,会不会影响付费用户 / 上生产 /
需要数据回填?
不会 = 低风险 会 = 高风险
然后对照象限:
明确 + 低风险 → 执行区:放手让 AI 做,审 diff 即可
明确 + 高风险 → 审查区:AI 出草稿,你逐行 review
模糊 + 低风险 → 探索区:AI 给方向,你做选择
模糊 + 高风险 → 决策区:自己来,AI 最多帮查资料
这套清单 30 秒就能过完。但它能帮你避开那一类"Prompt 写得很好但结果还是翻车"的场景------因为那些翻车,从来就不是 Prompt 的问题。
6. 收尾
上一篇讲怎么把 Prompt 写好------这是 AI 协作的"执行层"。这一篇讲什么时候根本不该交给 AI------这是"决策层"。两件事合起来,才是 AI 协作的及格线。
单点的 Prompt 技巧救不了错配象限的任务。但反过来,象限分对了,三要素 Prompt 才能稳定发挥威力。开头那个"我同样写了三要素 Prompt 但还是翻车"的故事,本质就是把决策区的活当 Prompt 题做了------再细的 Prompt 也救不回来。
ScoreMe 是我用本系列这套方法论搭的付费产品。如果你好奇"4 周时间一个独立工程师用 AI 协作能做到什么程度",评论区扣 "1" 或者私信我,我把链接发给你(知乎站内规则不让直接挂外链)。
下一篇会写4 个工程师每天都用得上的 Prompt 模板------读项目 / 修 bug / 加功能 / 重构。下一篇见。
关于作者
AI + 工程落地工程师,15 年系统工程经验,做过架构师 / Tech Lead / 独立 builder 三种角色。现在专注 ScoreMe(AI 评分官),用 AI 协作把想法快速变成可运行的付费产品。本系列分享我在这条路上沉淀的方法论与踩坑复盘。