光会写提示词，用不好 AI Agent

大家好，我是孟健。

这周我翻了 510 个 Agent session。最明显的感受是：Agent 越强，人越要会管理。

别再只研究 prompt 和模型版本了。真正拉开差距的，是你有没有给 Agent 设目标、定考核、给反馈、沉淀流程。

01 翻完 510 个 session，我看到的不是自动化，是管理问题

510 个 session，覆盖 15 个 Agent，时间范围一周。

session 数最多的几个：后端 93 个，前端 87 个，短视频 58 个，设计 46 个，市场侦察 37 个，SEO 37 个，产品策略 30 个。

然后我数了一下高频词，出现频次 Top：

确认 247 次、BLOCKED 229 次、handoff 223 次、Kanban 220 次、review 194 次、QA 147 次、DONE 130 次、deploy 130 次、验收 56 次、重做 32 次。

注意，出现频率最高的词，没有一个是模型名，没有一个是 prompt 技巧。

全是交接、阻塞、验收、复盘。

这说明什么？多 Agent 系统进入真实工作流之后，暴露出来的问题从"会不会写代码"变成了：任务怎么交，谁来判断完成，卡住了怎么办，做错了往哪复盘。

这是管理问题，不是技术问题。

02 把 Agent 当工具用，很快会卡住

很多人现在用 AI 的方式还是：写个 prompt，等输出，盯实现，不对就重来或者换模型。

这个方式在单次对话里没问题。但用来带 Agent 团队，很快会卡住。

原因很简单：Agent 的单次执行能力已经够用，瓶颈在协作结构。给它任务的时候，如果没说清楚：目标是什么、上下文是什么、什么情况要停下来等确认、怎么算做完------它也只能靠猜。猜出来的结果，有时对，更多时候需要大量返工。

外部研究也说明这点。Human-Agent Collaboration 领域的综述研究指出：人类在交互中持续提供信息、反馈和控制，是提升 Agent 可靠性和安全性的关键。完全自主的 Agent 在 hallucination、复杂任务、伦理边界上仍有系统性局限，换个更强模型不能彻底解决这些问题。

TheAgentCompany 做了一个模拟真实软件公司的 benchmark，让 Agent 处理真实工作任务：写代码、浏览 Web、与"同事"沟通。论文摘要里说，最强 baseline agent 完成 30% 的任务。

全自动不是当下的主线，协作方式才是。

03 人类的价值，正在从"会实现"变成"会校准"

这周有个短视频任务，是个很好的例子。

Agent 交付了内容，我看了一眼：BGM 不对，文案来源模糊，选题也不是当天的最佳方向。

我把问题反馈回去，Agent 自查后承认------没有完全按流程走，只能算半流程产物，不建议直接发。

然后呢？

补了几条硬规则：必须真实调用指定创作流程，BGM 必须有可商用授权记录，必须有 contact-sheet 和机械门禁检查。补完之后重做，这次机械门禁 PASS，内容可以发。

这次反馈的价值，不是"我发现了一个错误"。而是：人类的每一次校准，都是在给 Agent 标注训练样本。

反馈变成了 guardrails、变成了 playbook，下一次 Agent 就更稳。人不是监工，人是测试集。

你盯的不应该是每一步怎么实现，而是最终交付了什么、有没有可验证的证据、出了问题能不能快速定位到哪一步出的错。

04 我现在怎么给 Agent 下任务

这是我摸索出来的下任务模板，不是理论，是实际在用的。

每次给 Agent 分配任务，我会明确六件事：

目标：这个任务要达成什么结果。别只写"写篇文章"，要写清读者是谁、核心观点是什么、发布后看哪个指标。目标越具体，Agent 越容易对齐。

输入：给 Agent 的材料是什么。截图、数据、上游任务的输出、参考样本------越具体越好。不要让它自己去猜上下文，猜出来的假设一旦偏了，整个任务方向就歪了。

输出格式：要一个 markdown 文档，还是一段可直接复制的文案，还是图片加说明。格式不明确，返工率极高，因为 Agent 默认的输出结构往往和你实际需要的不一样。

验收条件：怎么判断任务完成。有没有字数要求、有没有质量门禁、有没有必须通过的检查项。这是最容易被跳过的一步，也是最重要的------没有验收条件，任务就没有终点。

禁区：哪些操作不允许自主执行。不能直接发布内容，不能修改生产数据，不能代表账号公开发言------这些必须明确写出来，不能靠 Agent 自己判断边界在哪里。

失败回调：出了问题怎么处理。是静默失败、报错等待人工，还是降级跑备用流程。没有失败回调的任务，出了问题会让整条链路卡住，没人知道从哪里重启。

这六件事，缺一件，任务就有漏洞。

人不需要盯每一步实现。但你得能在任务结束后，用交付证据判断：这次 Agent 到底做到了没有。如果做不到这个判断，就说明任务没有设计好，而不是 Agent 不行。

05 真正好用的 Agent 团队，需要考核系统

另一个案例是多 Agent 协作流水线。

在某个节点，几个下游 Agent 同时 BLOCKED------原因是上游前端还没有 final commit、没有 deploy、没有 checkpoint。

很多人看到这个会觉得：怎么又卡了？

我的判断反过来：这是成熟表现。

下游不拿不确定的输入硬做，意味着任务系统开始像真实团队一样运作。状态不清，就停下来等，不胡乱推进。

要让这种机制稳定工作，需要五件事：

目标：这个任务要达成什么结果，用什么指标衡量
禁止动作：哪些操作不允许自主执行，必须等确认
验收命令：怎么判断任务完成，谁来确认
回滚方式：出了问题怎么恢复
人工确认点：哪些节点必须人过一遍

Kanban 作为 source of truth，记录任务状态。Telegram 只负责可见性，不做决策依据。

这个设计背后的逻辑，和 principal-agent 理论高度一致：人把任务委托给 Agent，但 delegation、oversight、accountability 的结构必须设计好，不能全靠 Agent 自己摸索。

还有一个增长/社区预热的任务，做了一系列动作，但互动结果弱。

我让 Agent 做深度复盘。发现 OKR 部分有效，但策略偏保守，不够触发互动。

这个结果指向的不是"Agent 没用"。复盘的终点是下一轮任务的输入------考核的目的是把下一步说清楚，而不是判定这一次对不对。

复盘出 P1/P0 问题，这些问题直接变成下一轮任务的输入。迭代才是主线，不是追求一次做对。

06 以后会有一类人，专门"带 Agent"

我越来越确信，接下来会出现一类新的高价值角色：

不是 prompt 工程师，也不一定写每行代码。

他们知道：什么任务可以交出去，什么节点必须人工确认，什么指标没动就是失败。他们能把业务流程拆解成 Agent 能安全接手的任务系统，能给 Agent 写好目标和边界，能从输出里识别出哪里需要校准。

叫 AI team manager，或者 agent operator，名字不重要。

重要的是：这个能力，现在没有多少人在系统地培养。

对独立开发者来说，下一项能力不是再买一个新模型，不是刷最新 benchmark。而是把自己的业务改造成 Agent 能安全接手的任务系统。

以前我会盯 Agent 每一步怎么做。现在我更关心它最后交付什么、有没有证据、出了问题能不能复盘。

这个转变发生在某一个时刻，你会突然意识到：你不是在用工具，你在带团队。

你现在用 AI，是在"问答"，还是在"管理"？

欢迎留言。

👋 我是孟健，前腾讯 T11 / 前字节技术 Leader，现在全职做 AI 编程。

🔥 更多 AI 编程实战：

GitHub：@mengjian-github
专栏：AI编程实战

觉得有用？点赞+收藏 就是最大支持 🙏