光会写提示词,用不好 AI Agent

大家好,我是孟健。

这周我翻了 510 个 Agent session。最明显的感受是:Agent 越强,人越要会管理。

别再只研究 prompt 和模型版本了。真正拉开差距的,是你有没有给 Agent 设目标、定考核、给反馈、沉淀流程。


01 翻完 510 个 session,我看到的不是自动化,是管理问题

510 个 session,覆盖 15 个 Agent,时间范围一周。

session 数最多的几个:后端 93 个,前端 87 个,短视频 58 个,设计 46 个,市场侦察 37 个,SEO 37 个,产品策略 30 个。

然后我数了一下高频词,出现频次 Top:

确认 247 次、BLOCKED 229 次、handoff 223 次、Kanban 220 次、review 194 次、QA 147 次、DONE 130 次、deploy 130 次、验收 56 次、重做 32 次。

注意,出现频率最高的词,没有一个是模型名,没有一个是 prompt 技巧。

全是交接、阻塞、验收、复盘

这说明什么?多 Agent 系统进入真实工作流之后,暴露出来的问题从"会不会写代码"变成了:任务怎么交,谁来判断完成,卡住了怎么办,做错了往哪复盘。

这是管理问题,不是技术问题。


02 把 Agent 当工具用,很快会卡住

很多人现在用 AI 的方式还是:写个 prompt,等输出,盯实现,不对就重来或者换模型。

这个方式在单次对话里没问题。但用来带 Agent 团队,很快会卡住。

原因很简单:Agent 的单次执行能力已经够用,瓶颈在协作结构。给它任务的时候,如果没说清楚:目标是什么、上下文是什么、什么情况要停下来等确认、怎么算做完------它也只能靠猜。猜出来的结果,有时对,更多时候需要大量返工。

外部研究也说明这点。Human-Agent Collaboration 领域的综述研究指出:人类在交互中持续提供信息、反馈和控制,是提升 Agent 可靠性和安全性的关键。完全自主的 Agent 在 hallucination、复杂任务、伦理边界上仍有系统性局限,换个更强模型不能彻底解决这些问题。

TheAgentCompany 做了一个模拟真实软件公司的 benchmark,让 Agent 处理真实工作任务:写代码、浏览 Web、与"同事"沟通。论文摘要里说,最强 baseline agent 完成 30% 的任务。

全自动不是当下的主线,协作方式才是。


03 人类的价值,正在从"会实现"变成"会校准"

这周有个短视频任务,是个很好的例子。

Agent 交付了内容,我看了一眼:BGM 不对,文案来源模糊,选题也不是当天的最佳方向。

我把问题反馈回去,Agent 自查后承认------没有完全按流程走,只能算半流程产物,不建议直接发。

然后呢?

补了几条硬规则:必须真实调用指定创作流程,BGM 必须有可商用授权记录,必须有 contact-sheet 和机械门禁检查。补完之后重做,这次机械门禁 PASS,内容可以发。

这次反馈的价值,不是"我发现了一个错误"。而是:人类的每一次校准,都是在给 Agent 标注训练样本。

反馈变成了 guardrails、变成了 playbook,下一次 Agent 就更稳。人不是监工,人是测试集。

你盯的不应该是每一步怎么实现,而是最终交付了什么、有没有可验证的证据、出了问题能不能快速定位到哪一步出的错。


04 我现在怎么给 Agent 下任务

这是我摸索出来的下任务模板,不是理论,是实际在用的。

每次给 Agent 分配任务,我会明确六件事:

目标:这个任务要达成什么结果。别只写"写篇文章",要写清读者是谁、核心观点是什么、发布后看哪个指标。目标越具体,Agent 越容易对齐。

输入:给 Agent 的材料是什么。截图、数据、上游任务的输出、参考样本------越具体越好。不要让它自己去猜上下文,猜出来的假设一旦偏了,整个任务方向就歪了。

输出格式:要一个 markdown 文档,还是一段可直接复制的文案,还是图片加说明。格式不明确,返工率极高,因为 Agent 默认的输出结构往往和你实际需要的不一样。

验收条件:怎么判断任务完成。有没有字数要求、有没有质量门禁、有没有必须通过的检查项。这是最容易被跳过的一步,也是最重要的------没有验收条件,任务就没有终点。

禁区:哪些操作不允许自主执行。不能直接发布内容,不能修改生产数据,不能代表账号公开发言------这些必须明确写出来,不能靠 Agent 自己判断边界在哪里。

失败回调:出了问题怎么处理。是静默失败、报错等待人工,还是降级跑备用流程。没有失败回调的任务,出了问题会让整条链路卡住,没人知道从哪里重启。

这六件事,缺一件,任务就有漏洞。

人不需要盯每一步实现。但你得能在任务结束后,用交付证据判断:这次 Agent 到底做到了没有。如果做不到这个判断,就说明任务没有设计好,而不是 Agent 不行。


05 真正好用的 Agent 团队,需要考核系统

另一个案例是多 Agent 协作流水线。

在某个节点,几个下游 Agent 同时 BLOCKED------原因是上游前端还没有 final commit、没有 deploy、没有 checkpoint。

很多人看到这个会觉得:怎么又卡了?

我的判断反过来:这是成熟表现。

下游不拿不确定的输入硬做,意味着任务系统开始像真实团队一样运作。状态不清,就停下来等,不胡乱推进。

要让这种机制稳定工作,需要五件事:

  1. 目标:这个任务要达成什么结果,用什么指标衡量
  2. 禁止动作:哪些操作不允许自主执行,必须等确认
  3. 验收命令:怎么判断任务完成,谁来确认
  4. 回滚方式:出了问题怎么恢复
  5. 人工确认点:哪些节点必须人过一遍

Kanban 作为 source of truth,记录任务状态。Telegram 只负责可见性,不做决策依据。

这个设计背后的逻辑,和 principal-agent 理论高度一致:人把任务委托给 Agent,但 delegation、oversight、accountability 的结构必须设计好,不能全靠 Agent 自己摸索。

还有一个增长/社区预热的任务,做了一系列动作,但互动结果弱。

我让 Agent 做深度复盘。发现 OKR 部分有效,但策略偏保守,不够触发互动。

这个结果指向的不是"Agent 没用"。复盘的终点是下一轮任务的输入------考核的目的是把下一步说清楚,而不是判定这一次对不对。

复盘出 P1/P0 问题,这些问题直接变成下一轮任务的输入。迭代才是主线,不是追求一次做对。


06 以后会有一类人,专门"带 Agent"

我越来越确信,接下来会出现一类新的高价值角色:

不是 prompt 工程师,也不一定写每行代码。

他们知道:什么任务可以交出去,什么节点必须人工确认,什么指标没动就是失败。他们能把业务流程拆解成 Agent 能安全接手的任务系统,能给 Agent 写好目标和边界,能从输出里识别出哪里需要校准。

叫 AI team manager,或者 agent operator,名字不重要。

重要的是:这个能力,现在没有多少人在系统地培养。

对独立开发者来说,下一项能力不是再买一个新模型,不是刷最新 benchmark。而是把自己的业务改造成 Agent 能安全接手的任务系统。

以前我会盯 Agent 每一步怎么做。现在我更关心它最后交付什么、有没有证据、出了问题能不能复盘。

这个转变发生在某一个时刻,你会突然意识到:你不是在用工具,你在带团队。


你现在用 AI,是在"问答",还是在"管理"?

欢迎留言。


👋 我是孟健,前腾讯 T11 / 前字节技术 Leader,现在全职做 AI 编程。

🔥 更多 AI 编程实战:

  • GitHub:@mengjian-github
  • 专栏:AI编程实战

觉得有用?点赞+收藏 就是最大支持 🙏

相关推荐
绝知此事4 小时前
2026 AI 技术生态全景指南:从 LLM 到 Agent,从 MCP 到 A2A
人工智能·ai·ai编程
Karl_wei5 小时前
AI Harness 简易版建设
openai·agent·ai编程
ZFSS5 小时前
Midjourney Shorten API 的集成与使用
java·前端·数据库·人工智能·ai·midjourney·ai编程
闵孚龙6 小时前
Qwen3.7-Max深度解析:智能体Agent、AI编程、MCP工作流、跨框架泛化与百炼API,一次讲透国产大模型新前沿
人工智能·算法·架构·ai编程
人月神话-Lee6 小时前
【图像处理】卷积原理与卷积核——图像处理的核心引擎
图像处理·深度学习·ios·ai编程·swift
绝知此事7 小时前
【产品更名】通义灵码升级为 Qoder CN:AI 编码助手新时代,附大模型收费与 Spring Boot 支持全对比
人工智能·spring boot·后端·idea·ai编程
kyriewen8 小时前
我用AI把公司10万行代码屎山重构了,CTO看了代码后说:你提前转正
前端·javascript·ai编程
Mr_sst8 小时前
Codex 部署、使用教程 & Vibe Coding 实战指南
java·ai·语言模型·chatgpt·ai编程