别写Prompt了，现在流行给AI“写循环”

最近有个词在开发者圈子里火了------Loop。

黄仁勋说"Prompt正在过时，Loop才是新范式"。Claude Code的创始人Boris Cherny说他早就不自己写提示词了，全让一堆Loop替他干活。OpenClaw的创始人Peter Steinberger一条关于Loop的推文，浏览量直接冲到150万。

这不是什么新概念硬炒，而是AI编程正在经历第四次范式转移------从Prompt到Context，到Harness，再到Loop。

Loop到底是个什么东西？

别被名字唬住，道理挺直白的。

过去你用AI编程，是一句一句跟它对话：你写Prompt，它吐代码，你看结果，不满意再写一条。整个流程人一直在循环里面盯着，AI动一步，你推一步。

Loop干的事，就是把人从循环里抽出来。

你给AI定一个目标，它自己跑，跑完自己验收，不合格自己重来，直到干完或者花超预算才停。你的角色从"传话人"变成了"规则设计者"。

打个比方，以前你是在教实习生怎么敲代码，每一步都要你指挥 。现在你是在设计一条流水线，实习生自己在那转，转完了交成品。

它跟Agent有什么区别？

好问题。很多人一听到Loop就说：这不就是Agent吗？

Agent是那个干活的"人"，Loop是让这个人不用你盯着也能持续干活的那套管理机制。

没有Loop的Agent，你问一句它动一下，本质上还是个听话的工具 。套上Loop的Agent，才变成一个能自转的系统。

Boris Cherny自己怎么工作的？他去年11月就把IDE卸载了。现在他手下几百个小Agent同时跑，有的扫GitHub Issue，有的读Slack反馈，有的监控CI失败。每个Agent在自己隔离的分支里干活，一个写代码，另一个跑测试验收。搞不定的才进他的收件箱。

据他说，自Opus 4.5以来，他所有代码都是Claude Code写的，大部分代码直接是在手机上完成的。

为什么偏偏是现在火了？

其实Loop的理念学术界早就有了。2022年姚顺雨的ReAct框架（Reason+Act），做的就是"思考→行动→观察→再思考"的循环结构。

那为什么现在才在工业界爆发？

工具成熟了 。一年前你想搞这套，得自己写一堆Bash脚本、排程系统、状态管理。现在Claude Code和OpenAI Codex把这些能力直接内建进产品了。

Claude Code里：

/loop负责定时循环
/goal负责目标驱动（跑到验收条件满足才停）
/schedule负责云端定时任务，合上电脑也能跑

最精妙的设计在/goal------写代码的是大模型，验收的是另一个独立的小模型Haiku，各司其职。自己不能判自己的卷子，这条原则被写进了产品架构。

OpenAI Codex的玩法更接近"自动化流水线+多Agent并行"，最多8个Agent同时在各自的云端沙箱里干活，最后汇总结果。

两个产品的实现路径不同，但长出来的形态高度相似------都拆碎任务、并行执行、统一汇总。公开评测里的表现也已经非常接近。

这说明一件事：模型本身已经卷不出太大差别了，真正的差距在上层的Loop编排。

范式迁移：控制粒度不断上移

往回拉时间线，能看到一条清晰的演化路径：

2023~2024，Prompt Engineering：提示词怎么写决定AI表现好坏
2024~2025，Context Engineering：关注点从"怎么问"变成"给AI看什么信息"
2025~2026，Harness Engineering：给AI搭一个能干活、能约束、能调工具的运行环境
现在，Loop Engineering ：让AI在这个环境里持续干活、自己推进、不需要人一步步盯着

本质上是人类对AI的控制粒度不断上移------从写一句话，到提供信息，到搭建系统，到设计循环。

普通人怎么"Loop起来"？

X上有个博主Codez发了份14步实操Roadmap，我挑几个关键点说说。

第一步：先别急着建，先做"四条件测试"

Loop不是什么活都能往里塞。动手前先问四个问题：

任务重复发生吗？
有自动化验收手段吗？
Token预算扛得住吗？
Agent有完整工具权限吗？

四个全过，才值得建Loop。

第二步：从最小可行Loop开始

第一次别搞花活。核心四件套：

一个触发器（定时跑或事件触发）
一个技能（把项目上下文写进STATE.md，让每次运行不用重新解释）
一个状态文件（记下"做到哪了、什么成了、什么挂了"）
一个门禁（测试、类型检查、构建------能自动拦住坏结果的东西）

顺序很关键 ：先手动跑通→写成Skill→包进Loop→最后才上定时。跳步是Loop死在生产环境的主要原因。

第三步：写代码和验代码必须分开

这是Loop设计里最重要的一条原则。用一个模型负责写，另一个独立模型负责验收，验收的那个不能看到写的那个的推理过程。

为什么？因为模型给自己写的代码打分时，手太松了。所有"看起来不错"的代码，在独立验收器面前大概率能挑出一堆毛病。

避坑指南：别人的教训

没有硬停止条件------Loop跑到你看到账单才停。必须设Token上限、迭代次数上限、时间限制。

状态不落地------Agent的记忆是短时的，今天学的东西明天就忘。必须写进状态文件，每次运行接着读。

别让Loop碰"需要判断"的活------架构重写、鉴权代码、支付逻辑、产品方向决策，这些别让Loop碰。Loop适合干"对错清晰、机器可验证"的活，比如Lint自动修复、依赖更新PR、CI失败分类。

必须读Diff ------Loop合入代码越来越快，你对代码库的理解越来越浅。这叫**"理解力债务"------真正的代价不是Token账单，而是某天你要调试一个团队里没人读过的系统**。

衡量指标就一个：每个被接受的改动，平均成本是多少。如果你的"被接受率"低于50%，说明你做的Loop在亏钱。

最大的两个问题：成本和认知投降

成本------这是最现实的障碍。Boris Cherny和Peter Steinberger背后都有公司提供近乎无限的Token支持，但普通人没这个条件。

有开发者算过：1分钟执行一次、连续跑8小时，就是480次API调用 。Claude Code目前的策略是做限制：最小间隔1分钟，最长运行3天，到期自动停。关闭终端Loop就停，不是什么持久化后台任务，就是为了防止失控账单。

有人问Peter Steinberger"20美元的套餐根本不可能啊"，他回了一句大实话："没错。可难道你的时间真不值钱吗？"

认知投降 ------这是Google工程负责人Addy Osmani提的概念。当Loop运转越来越顺畅，人很容易停止思考。长期下来，可能逐渐失去形成独立判断的能力。

他有一段话说得特别好：

"设计Loop本身并不是答案。当你带着判断力去设计它时，它能成为解方；但当你用它来逃避思考时，它反而会成为加速问题恶化的催化剂。同样的行动，却可能带来完全相反的结果。"

趋势已经很清晰了

过去三年，人一直在循环里，是驱动整个系统的核心。Loop工程第一次把人从循环的中心移到了循环的外面------人不再是司机，变成了导航。

对开发者来说，核心竞争力变成了定义问题、设计验收标准 的能力。对产品来说，迭代速度会进一步加快，因为技术不再是瓶颈，判断力才是。

当然这一切建立在一个前提上：模型还得继续变强。Loop能转多少圈、处理多复杂的任务，最终取决于模型的基础能力。如果模型跑个三五步就偏了，再精巧的Loop设计也没用。

好在从今年的情况看，模型进步没慢下来。GPT-5.5、Claude 5、GLM-5.2、DeepSeek V4，半年时间各家都更新了一代，而且每一代都在Agent能力上有明显提升。

模型越来越强，Loop越转越顺，人越来越往外退。

这件事听起来好像只是效率提升，但仔细想想------它可能是AI从"工具"变成"协作者"的关键一步。工具是你用它，你得知道怎么操作。协作者是你告诉它目标，它自己想办法，你们一起把事情做成。

我们现在可能正站在这个分界点上。