上周末刷到黄仁勋的一句话:
"Nobody writes prompts anymore. The new job is to write and handle loops."
翻译过来:写 Prompt 的时代过去了,现在拼的是写 Loop。
紧接着 Claude Code 之父 Boris Cherny、龙虾之父 Peter、吴恩达全在推同一个方向。Boris 甚至说自己卸载了 IDE,手下几百个小 Agent 自己跑,搞不定的才进他收件箱。
Loop 是什么
一句话:你不再亲手给 AI 下指令,而是设计一个系统,让系统替你下指令、替你验收、不合格自己重来,直到活干完。
你的角色从"写指令的人"变成"设计规则的人"。Agent 是干活的那只手,Loop 是让这只手不用你盯着也能持续干活的管理机制。
其中最精妙的原则:"拆卷子和判卷子不能是同一个人"------Claude Code 的做法是大模型写代码,另一个独立的小模型负责验收。自己不能判自己的卷子。
评测领域,还在用上个时代的姿势
Loop 在编程圈已经炸了,但回头看一眼内容评测领域------我们还在干什么?
- 写一条 Prompt:"帮我评价这篇文案,打 1-10 分"
- AI 回一个分数,你看了觉得不够,换个角度再问一次
- 来回拉锯,人全程盯着
本质上还是卡帕西吐槽的那个问题:"人就是瓶颈。你不能坐在那里等着给每一步写 Prompt,你得把自己从流程中抽离出来。"
那评测领域的 Loop 长什么样?RaaS100平台 已经上线的万智测评可以回答。如果你也感兴趣,欢迎添加我微信,我们一起聊聊。

万智测评:内容评测的 Loop 引擎
你不再写"假装你是 24 岁潮人评价这篇文案"这种 Prompt。
你定义好评测回路:设定目标人群画像 → 配置评测维度 → N 个独立 AI 测试员各自打分 → 系统自动聚合分布 → 你直接看报告做决策。
万智市场测评(raas100)就是一个专门为内容评测设计的 Loop 引擎:
- 万级人设库:每个 AI 受访者带年龄、城市、消费力、审美偏好等十维人口学标签,不是"一个模型假装不同人",而是独立子智能体各自判断
- 独立打分后再聚合:天然实现 Loop 的"拆卷子"原则------评测你的人不会看到创作者是谁,不会自己给自己打高分
- 分布报告而非单点分数:给你点赞率、点踩率、转化意愿分层、评论趋同聚类、人群亲和度排序,不是一句"还可以"就完了
人和 AI 的分工发生了变化:人类只定义"测谁、测什么",系统替你跑完整个评测回路。
Loop 不是编程专属,是所有 AI 工作流的下一站
从 Prompt Engineering → Context Engineering → Harness Engineering → Loop Engineering,四次范式跃迁写的是同一件事:人类对 AI 的控制粒度在不断上移,从"写一句话"变成"设计一个能自己运转的系统"。
而学术上,腾讯姚顺雨 2022 年的 ReAct(ICLR 2023 Oral)已经揭示了相同的核心------AI 不该是一次性输出,而是一个思考-行动-观察-再思考的循环。
评测领域当然也在这个趋势里。少写一条 Prompt 问模型"你觉得怎么样",多想想怎么搭一个能自己跑的评测回路------这才是 Loop 时代的正确姿势。