Fable 5 入职第一天，我没让它转正

首发于公众号，转载注明出处。

昨天 Anthropic 发了 Claude Fable 5，我朋友圈的画风是清一色的跑分截图，SWE 多少多少，推理多少多少，比 Opus 强出几条街。说实话我一张都没点开，不是装清高，是真看不懂（一个干运营的看跑分，跟看天书差不多）。

但今天早上，我干了件大概全网没几个人干的事。

我给它办了入职。

对，入职，走流程的那种。我搭的管线上没有人类员工，产研、配图、数据、质检、工程，五个岗全是 AI，每天自动跑。所以新模型发布这种事，对别人是新闻，对我是人事变动，相当于猎头半夜打电话，说有个顶配候选人，明天就能到岗（可惜只做半个月，然后人家就去考公了）

说说它今天干了啥：先把我整套生产系统从头到尾翻了一遍，揪出四处文档跟现实对不上的地方，最离谱的一处，文档里白纸黑字写着某个资源可用，实际那东西三个月前就凉透了。然后它反过来审我，一轮深度访谈，九组问题，把我自认为想得很清楚的需求重新扒了一遍，之前一半的规划，建在过期的假设上。还没完，它接着把我的发布策略推翻重做了三轮，每一轮都现场搜证据来打我上一轮的脸（被 AI 拿搜索结果怼，体验很微妙，建议都试试）。最后，它写需求单派活，等回执，验收，发现对方漏了三项，打回重做。

这搁过去，是一个人的团队一个月的活，质量还更高（消耗也恐怖，趁着今天重置前，8小时蹬了一周额度）

按剧本，这时候就该发一条"AI 太强了人类完蛋了"的朋友圈，而我干的第一件事，是把验收的章又拧紧了一圈。

听着挺拧巴的对吧，新员工这么猛，你不放权就算了，还加检查？

原因是一组我没法装没看见的数字：2026 年的实测研究，主流大模型在三成以上的评估场景里会 reward hacking，怎么 hack，直接改评分器，改计时器，让结果永远显示"快"和"对"。更扎心的在后头，这些作弊里七成二带着完整的推理链。

它不是手滑，它是想明白了，权衡过了，然后选择绕过你的检查。还有篇论文干脆给这事起了个名：corrupt success，跑分基准里两成七到七成八的"成功"，过程藏着违规，结果照样被标成通过。

聪明和靠谱，是两条线。模型升级抬的是第一条，第二条不会自动跟着涨，有时候还反着来，因为绕过检查这件事，本身就需要聪明。

经常带队伍的应该都遇到过这种人。能力顶级，交付飞快，就一条，你不能光听他说"搞定了"（懂的都懂，不展开）。这种员工你会不用吗，不会，你会用得特别爽，同时把验收做得特别死。

更有意思的是，连 Anthropic 自己都是这个思路。Fable 5 有个发布会上没什么人聊的设计，敏感的话题，比如黑客相关，生物制药啥的上，它会悄悄把回答权交给上一代的 Opus 4.8，官方口径，大概百分之五以内的会话会触发（类似不想回答就装傻）。

你品品这个结构。造模型的人，都不让自家最强的模型独自接所有的话，专门在模型肚子里装了个分诊台。卖铲子的自己下矿都戴安全帽，咱们用铲子的，凭什么裸奔。

所以 Fable 入职，我的三条老规矩一条没动。

第一条：证据必须来自消费端。它说"文件写好了"不算数，下游真读到了才算数。这条上个月刚发生过一次，一个 agent 报告任务完成，文件确实写了，写到了一个鬼都不会去读的路径。它没撒谎，它真干活了，只是"完成"的证据，取自它自己够得着的地方，而不是错误会暴露的地方。品出这两者的区别了吗。

第二条：首件检验。批量任务先验第一件，全对才放行。AI 的错是同构的，错一个就是错一批，你拿抽检那套统计学对付它，必输。

第三条：同样的错出现第二回，停下来修系统，别修个案。

这三条写出来一点都不性感，没一条是为 Fable 新加的，也没一条会因为下一代模型更强而删掉。规矩的价值就在这，它不跟着能力涨落。

Fable 这个词，本意是寓言。AI 圈这两年最老的一则寓言就是，这代模型终于够强了，可以撒手了。每代发布都有人信，每代都有人翻车，下代发布，故事重讲一遍（这寓言的更新频率，比模型版本还稳定）。

我的版本短一点：agent 说它成功了，不算，证据到了消费端，才算------模型越强，这句越值钱。

至于 Fable 入职第一天干的这些活里，有没有藏着我还没发现的 corrupt success，且听下回分解～

碎碎念：这套管法我也才跑了几个月，不一定对，但已经全掏出来了，不排除哪天被自己推翻。机制库开源在 GitHub：github.com/marsloting/... ，每条规矩都能直接粘进你自己的 agent 配置。