当 AI 学会「自己催自己」:对 Loop Engineering 的理解与思考

先说一个让我「咯噔」一下的瞬间

前段时间看到 Claude Code 负责人 Boris Cherny 说了句话,大意是:我已经不写 Prompt 了,我只写 Loop

我的第一反应是:啊?Prompt 不是刚学会怎么写好吗?怎么就又过时了?

但仔细想了下这句话背后的意思,突然意识到它不是在讲什么新技术,而是在讲一个我们早就该意识到的问题 ------如果每次用 AI,你都要在它身边喊「继续」「还是报错」「你改了啥」「回滚」,那说明你其实不是在用工具,你是在当监工

而 Loop Engineering 想做的事,就是把这个「监工」也裁掉


我理解的 Loop Engineering 到底是什么

一句话版本:

把「你盯着 AI 干活、不断纠正它」的过程,写成一套自动化流程,让 AI 自己盯着自己

它跟写 Prompt 的核心区别在于:

写 Prompt 设计 Loop
你告诉 AI 要做什么 你告诉 AI 怎么自己检查自己做没做好
只描述任务 同时描述任务 + 验收标准 + 失败后的纠偏路径
你守在旁边等着纠错 你想好所有可能的坑,提前把纠错逻辑写进流程
一次性的指令 一个能自己转起来的闭环

本质上,Loop Engineering 是把**测试驱动开发(TDD)**的哲学搬到了 AI 交互上

TDD 说:先写测试用例,再写代码。Loop Engineering 说:先定义「什么算做好」,再让 AI 跑

区别只在于 ------ TDD 跑测试的是你,Loop Engineering 跑测试的是 Agent 自己


为什么这个概念现在突然火了

我梳理了一下时间线,发现这不是偶然:

  1. 模型能力到位了。不管是 Claude、GPT 还是 Gemini,现在的模型已经足够聪明,能够在大多数任务上给出「还行」的结果。问题的瓶颈不再是「模型做不出来」,而是「模型做出来的跟你要的有差距」

  2. Agent 基础设施成熟了。Agent Loop(工具调用 → 观察结果 → 继续调用)已经是标配。Claude Code 有 Hook、Cron、Sub Agent、Worktree 隔离;Codex 也有类似的能力。基建铺好了,就差一套方法论

  3. 大家都在喊累。「继续」「还是报错」「你改了啥」「先别重构」成了 Claude Code 用户的高频词。AI 确实帮了忙,但人还是被拴在交互循环里。效率提升遇到了天花板

这三件事叠加在一起,Loop Engineering 的出现几乎是必然的 ------ 它解决的恰恰是这个「天花板」。


两个 Loop,别搞混了

我把原文里最核心的区分用自己的话重新说一遍:

Agent Loop(底层循环):模型收到任务 → 判断要不要调工具 → 调工具 → 拿到结果 → 再判断要不要调工具 → ...直到输出最终答案。这是 Agent 的「心跳」,是代码层面的事

Loop Engineering(上层循环) :你给 Agent 一个任务 + 验收标准 → Agent 干活 → Agent 自己跑测试 → Agent 发现不对就自己改 → Agent 再测试 → ...直到达到标准。这是人设计的流程,是方法论层面的事

打个比方:

  • Agent Loop = 汽车引擎的四个冲程(进气、压缩、做功、排气),是物理规律,每辆车都有

  • Loop Engineering = 你给车装上自动驾驶系统,设定目的地,然后它自己规划路线、自己避开拥堵、自己调整方向

前者是「这辆车能跑」,后者是「这辆车能自己开到目的地,不用我握方向盘」


六个组件,我的理解排序

原文讲了 Loop Engineering 的六大核心组件,我把它们按照「从最基础到最进阶」的优先级重新排了一下,加上自己的判断:

第一层:没有它们,Loop 跑不起来

① Connectors / Plugins(连接器) --- 这是 Agent 的「手和脚」。没有 MCP 和各种 API 对接,Agent 就是个只会说话的脑袋,什么都做不了

② State(状态管理) --- 这是 Agent 的「记忆」。不记录「做到了哪一步」,Loop 每转一圈都像第一次转。这里原文提的方法是 AGENTS.md 或对接 Linear,我觉得核心不是用什么工具,而是让 Agent 能知道自己从哪来、到哪去

第二层:没有它们,Loop 跑不稳

③ Worktrees(工作树隔离) --- 多个 Agent 同时跑的时候,这是避免「互相踩脚」的关键。我理解这其实不是一个 Loop Engineering 特有的需求,而是并行 Agent 的通用基础设施。但它的重要性被很多人低估了 ------ 两个 Agent 同时改同一行代码导致的 bug,排查起来比单线程 bug 痛苦得多

④ Automations(自动化调度) --- 这是 Loop 的「发动机」。Cron 定时任务、/loop 命令、Hook 触发......让 Loop 不光能「手动启动一次」,还能「定时自己跑」。这里我特别认同原文的一个判断:不是所有任务都值得做成定时 Loop。如果流程固定,写成脚本能省很多 Token

第三层:没有它们,Loop 不够聪明

⑤ Sub Agents(子智能体) --- 这是 Loop 的「质检员」和「专项小组」。原文提到一个我特别认可的设计哲学:验证 Sub Agent 必须跟主 Agent 解耦,不能既当运动员又当裁判员。这其实就是软件工程里的「code review 不能由写代码的人自己做」在 AI 时代的翻版

⑥ Skills(可进化的技能包) --- 这是 Loop 的「肌肉记忆」。每一次 Loop 转完,把经验沉淀成可复用的 Skill,下次就不用从头推理。这才是真正的「越用越聪明」。我理解这跟 RAG 里的知识库是同一个思路,只是粒度更粗、更面向任务


一个让我脑子里「通了」的类比

如果把 AI Agent 比作一个新来的实习生

  • 写 Prompt = 每次给实习生下一份详细的任务说明书。「把这个 Excel 里的数据按这 5 条标准分类,输出到一个新表里」

  • Agent Loop = 实习生拿到说明书之后,自己查资料、问同事、用工具,一步步把活干了

  • Loop Engineering = 你不光给了任务说明书,还给了验收清单、自检流程和纠偏手册。「分完类之后,自己随机抽 20 条检查准确率;如果不到 95%,看看哪些类型最容易分错,把那几类的判断准则再细化一下;然后再分类、再检查,直到达标。最后把你稳定下来的判断标准整理成文档。」

区别在哪?

第一种,你省了干活的时间,但没省检查的时间

第二种,你连检查的时间也省了,你只需要最后确认一下结果就行

这就是 Karpathy 说的:「把你自己从 Loop 的执行过程中移除出去」


不是所有人都该急着上 Loop

我觉得这是原文最有价值但也最容易被忽略的部分。用 Loop 之前,先问自己三个问题:

  1. 你能不能说清楚「做到什么程度才算好」? 如果你连验收标准都写不出来,那 Loop 等于瞎子开车

  2. 你的验收标准本身对不对? 如果验收标准有漏洞,Loop 会把漏洞放大 ------ Agent 花费大量 Token 优化出一个在错误方向上的「完美」结果

  3. 你现阶段是不是真的需要自动化到这种程度? 如果任务只做一次,或者你自己都还在摸索需求,那 Human-in-the-Loop 不但不落后,反而是更理智的选择

Loop Engineering 提高的不是 AI 的上限,而是提升了对你(使用者)的要求。你得比原来更清楚自己要什么、怎么判断要到了、没要到该怎么办

模糊的需求 + Loop = 烧着 Token 跑偏路

清晰的需求 + Loop = 省时省力的自动化流水线


几个判断

写到最后,想逼自己输出几个明确的观点:

  1. Loop Engineering 不是新发明,是新命名。 它本质上是把 TDD、CI/CD、自动化测试这些软件工程的老概念搬到了 AI Agent 上。但「给旧东西起新名字」本身就有价值 ------ 它让模糊的实践变成了可讨论、可优化、可传播的术语

  2. Prompt 不会被取代,但会被升维。 Loop 不是不写 Prompt 了,而是把 Prompt 拆成了「任务描述 + 验收标准 + 纠偏策略」三个部分。Prompt 工程从「一段话」变成了「一套流程」

  3. 未来一年,会出现「Loop 模板市场」。 就像现在有 Prompt 模板,未来一定会有针对不同场景的 Loop 模板 ------「代码审查 Loop」「日报生成 Loop」「数据分析 Loop」。好的 Loop 写起来比好 Prompt 难得多,复用价值也高得多

  4. Loop Engineering 的终局不是「人完全不用管」,而是「人只在最有价值的时候介入」。 人不再当监工,而是当架构师 ------ 设计流程、定义标准、处理 Agent 搞不定的边缘情况。人的精力从「催进度」和「改 bug」里解放出来,去干更需要创造力的事


最后

Loop Engineering 这个概念让我想起一个老笑话:

一个程序员花 5 天写了一个脚本,自动完成一件每天需要 5 分钟的事情。他一共需要连续运行这个脚本 300 年才能收回时间成本

但笑完想想,AI 时代可能正好相反:

你花 1 小时写了一个 Loop,让 Agent 自动完成一件本来每次需要 5 小时的事情。你跑第一次就赚回来了

工具的价值不在于「做了以前做不了的事」,而在于「让以前能做但太贵的事,变成顺手的事」

Loop Engineering,就是在做这件事