# 什么该交给 AI,什么自己来:一个工程师的 4 象限决策法

什么该交给 AI,什么自己来:一个工程师的 4 象限决策法

第 2 篇 · 四象限任务分类法


1. 同一个 AI,同一个早上,两件事

上个周末的早上,我在做 ScoreMe 的开发。那一天我用同一个 Claude Code,做了两件事。

第一件 :让它生成 ScoreRecord 模型的 Django migration,加一个 model_name 字段记录每次评分用的是哪个 Qwen 模型。我写了一个三要素 Prompt------目标、约束、验收讲清楚------5 分钟之后 migration 跑通、单元测试通过、提交上线。

第二件:让它帮我决定"免费用户用完 3 次后,整个付费转化路径该怎么设计"。我同样写了一个三要素 Prompt,里面塞满了上下文:产品阶段、目标用户画像、当前漏斗大致形状。AI 给了三个方案,看起来都有道理。我选了一个上线,三天后看效果,远不如我之前手感拍的那一版。我又花了一个晚上把整个路径全部回炉。

同一个 AI,同一套 Prompt 方法,结果天差地别。我后来想明白了:第二件事根本就不该让 AI 来决定。

上一篇讲了怎么把 Prompt 写好。但比"怎么写"更上一层的问题是------这件事,到底该不该让 AI 做?


2. 更细的 Prompt 救不了这种翻车

我一开始也以为是 Prompt 没写好。

我把那个弹窗的 Prompt 又改了两版------加了更多上下文、更明确的目标、更紧的约束、更可量化的验收。每一版 AI 都能给出"看起来更专业"的方案。但我心里越来越清楚:问题不在它给我多少个方案,问题在我自己也不知道哪个方案是对的------AI 也不知道。

Prompt 三要素解决的是执行层问题------你已经决定让 AI 做这件事了,问题是"怎么交代清楚"。三要素能让 AI 把执行做得很稳。

但还有一类问题在更上一层------决策层:这件事到底应不应该交给 AI?

决策层的判断有两个维度:

  • 需求明确度:你自己心里有没有一个"对的答案",AI 只是帮你产出?还是你自己也不知道答案?
  • 风险高低:如果 AI 做错了,你能在 5 分钟内回滚?还是会直接影响付费用户、上生产、需要数据回填?

这两个维度,决定了你应该用什么方式让 AI 介入------而不是要不要让它介入。


3. 四象限:明确度 × 风险

把这两个维度交叉,得到 2×2 = 4 个象限。每个象限对应的人机协作模式完全不同:

需求明确 需求模糊
低风险 执行区:AI 全做 探索区:AI 当陪练
高风险 审查区:AI 出草稿, 决策区:自己来,
人逐行 review AI 最多帮查资料

执行区(明确 + 低风险):放手让 AI 做。这类任务你心里有标准答案,AI 错了你 5 分钟能回滚。比如生成 Django models、写 REST 脚手架、补单元测试、生成 Docker Compose 模板。这种事自己写是浪费时间。

审查区(明确 + 高风险):AI 出草稿,但你必须 review 每一行。你知道目标是什么,但任何错误都会上生产、影响付费用户、或者改起来代价高。比如付费弹窗文案、价格展示组件、用户次数扣减的事务逻辑。AI 写得快没用------错一个字符,生产就出事。

探索区(模糊 + 低风险):你自己也没标准答案,但试错成本低。这种场景 AI 是非常好的陪练------给你 3 个方向、5 个备选、10 个改写版本。你不需要它给"对的答案",你需要它扩你的搜索空间。比如评分 Prompt 调优、错误提示文案、loading 态文字。

决策区(模糊 + 高风险):自己来,AI 最多帮你查资料。这一类任务你自己也不知道答案,但错了代价很大。把这种事外包给 AI,你拿回来的"看起来很专业"的方案,可能恰好是平均化的、缺乏判断力的、躲过了所有真问题的------比如定价策略、付费转化路径、MVP 边界。

90% 的"Prompt 写得很好但结果还是翻车",都发生在错配象限。


4. 各模块的真实分配

我把这个产品所有开发任务拉出来过一遍四象限。下面这张表是真实记录:

模块 内容 象限 AI 介入方式
accounts Visitor 模型、visitor_id 字段 执行区 AI 全做,我审 diff
scoring Django REST 接口骨架 执行区 AI 全做
通用 单元测试、Docker Compose 执行区 AI 全做
billing UserQuota 数据模型 + migration 执行区 AI 全做
billing 次数扣减的事务逻辑 审查区 AI 草稿,我逐行 review
scoring 评分 Prompt 调优 探索区 AI 给版本,我跑样本决定
前端 错误提示、loading 文案 探索区 AI 给 5 版,我挑
前端 转化弹窗的 CTA 文案 审查区 AI 草稿,我逐字过
架构 是否引入 Redis 做异步队列 决策区 AI 退后,我自己定
产品 定价的设定 决策区 AI 退后,我自己定
产品 MVP 必须实现 / 暂不实现 的边界 决策区 AI 退后
产品 付费转化路径设计 决策区 AI 退后

几个细节值得展开。

次数扣减为什么进了审查区:这段代码逻辑上很明确------"先扣 paid_count,再扣 free_count_today,今天的免费次数过零点重置"。但它直接管钱:少扣一次,付费用户就觉得被坑;多扣一次,免费用户就提前撞付费墙。错任何一边,转化都崩。所以即使逻辑明确,AI 草稿也必须我逐行过。这种"逻辑明确但风险高"的代码,是审查区的典型------和"逻辑明确且低风险"的脚手架代码,差的是后面那一步盯输出。

评分 Prompt 调优为什么不在执行区:第 1 篇里那个 Prompt 看起来很标准化,但调优过程其实没有"对的答案"------你不知道加哪一句话会让评分更准,也不知道哪一句话会让用户觉得"它真的懂我"。我让 AI 做的事是"针对这一类用户输入,给我 5 个 Prompt 改写版本",然后我自己跑真实样本看哪一版稳。AI 是陪练,不是答题机。

我翻车的那一次:早期我把"visitor_id 的生成策略"放到了执行区------这事儿听起来很明确("给匿名用户一个唯一标识"),AI 也确实快速给了一个 UUID 方案。但这事儿的真实复杂度不在生成方法上,在"用户清空浏览器后是不是同一个人""跨设备访问算不算同一个人""这影响不影响免费次数被滥用"。这些问题决定了 visitor_id 是产品决策,不是技术执行。我一开始没想清楚就让 AI 写完了,结果上线后发现一些边缘情况下识别会出问题------本质是我把决策区的活当执行区干了。这个洞后来在 v2 补上了,但修它花的时间,是当初省下写代码的 10 倍。


5. 30 秒决策清单

下次你准备让 AI 做一件事,按下回车前先问自己 3 个问题:

markdown 复制代码
1. 我能在一句话里说清"做对了长什么样"吗?
    能 = 需求明确    不能 = 需求模糊

2. 这个改动如果错了,能在 5 分钟内回滚吗?
    能 = 低风险      不能 = 高风险

3. 这事儿如果错了,会不会影响付费用户 / 上生产 /
   需要数据回填?
    不会 = 低风险    会 = 高风险

然后对照象限:

复制代码
明确 + 低风险 → 执行区:放手让 AI 做,审 diff 即可
明确 + 高风险 → 审查区:AI 出草稿,你逐行 review
模糊 + 低风险 → 探索区:AI 给方向,你做选择
模糊 + 高风险 → 决策区:自己来,AI 最多帮查资料

这套清单 30 秒就能过完。但它能帮你避开那一类"Prompt 写得很好但结果还是翻车"的场景------因为那些翻车,从来就不是 Prompt 的问题。


6. 收尾

上一篇讲怎么把 Prompt 写好------这是 AI 协作的"执行层"。这一篇讲什么时候根本不该交给 AI------这是"决策层"。两件事合起来,才是 AI 协作的及格线。

单点的 Prompt 技巧救不了错配象限的任务。但反过来,象限分对了,三要素 Prompt 才能稳定发挥威力。开头那个"我同样写了三要素 Prompt 但还是翻车"的故事,本质就是把决策区的活当 Prompt 题做了------再细的 Prompt 也救不回来。

ScoreMe 是我用本系列这套方法论搭的付费产品。如果你好奇"4 周时间一个独立工程师用 AI 协作能做到什么程度",评论区扣 "1" 或者私信我,我把链接发给你(知乎站内规则不让直接挂外链)。

下一篇会写4 个工程师每天都用得上的 Prompt 模板------读项目 / 修 bug / 加功能 / 重构。下一篇见。


关于作者

AI + 工程落地工程师,15 年系统工程经验,做过架构师 / Tech Lead / 独立 builder 三种角色。现在专注 ScoreMe(AI 评分官),用 AI 协作把想法快速变成可运行的付费产品。本系列分享我在这条路上沉淀的方法论与踩坑复盘。

相关推荐
li-xun44 分钟前
Claude 关闭 Fable 5 / Mythos 5 模型?付费用户能退款吗?
ai编程
凯旋.Lau1 小时前
Claude Code辅助软件开发实用教程
ai编程
Flandern11111 小时前
Claude Code常用技巧
ai·ai编程·code·claudecode
IT 行者1 小时前
GitHub Spec Kit 实战(六):/speckit.implement 怎么用、怎么审、怎么发现 spec 阶段的遗漏——五部曲收官
java·驱动开发·github·ai编程·claude
协享科技1 小时前
多模态模型入门:GPT-4V / Claude Vision 到底能做什么
人工智能·agent·ai编程·编程人生
让我上个超影吧2 小时前
Claude code:Hooks
java·数据库·ai编程
盒子69102 小时前
大模型运维中ECC Mode问题
ai·运维开发·ai编程
IT 行者2 小时前
GitHub Spec Kit 实战(四):读懂和干预 /speckit.plan——AI 最自由发挥的一步
java·人工智能·github·ai编程·claude
wuhen_n2 小时前
RAG 优化实战:检索精准度提升全方案
前端·langchain·ai编程
KX_Lau3 小时前
Codex辅助软件开发实用教程
ai编程