首发于公众号,转载注明出处。
昨天 Anthropic 发了 Claude Fable 5,我朋友圈的画风是清一色的跑分截图,SWE 多少多少,推理多少多少,比 Opus 强出几条街。说实话我一张都没点开,不是装清高,是真看不懂(一个干运营的看跑分,跟看天书差不多)。
但今天早上,我干了件大概全网没几个人干的事。
我给它办了入职。
对,入职,走流程的那种。我搭的管线上没有人类员工,产研、配图、数据、质检、工程,五个岗全是 AI,每天自动跑。所以新模型发布这种事,对别人是新闻,对我是人事变动,相当于猎头半夜打电话,说有个顶配候选人,明天就能到岗(可惜只做半个月,然后人家就去考公了)
说说它今天干了啥:先把我整套生产系统从头到尾翻了一遍,揪出四处文档跟现实对不上的地方,最离谱的一处,文档里白纸黑字写着某个资源可用,实际那东西三个月前就凉透了。然后它反过来审我,一轮深度访谈,九组问题,把我自认为想得很清楚的需求重新扒了一遍,之前一半的规划,建在过期的假设上。还没完,它接着把我的发布策略推翻重做了三轮,每一轮都现场搜证据来打我上一轮的脸(被 AI 拿搜索结果怼,体验很微妙,建议都试试)。最后,它写需求单派活,等回执,验收,发现对方漏了三项,打回重做。
这搁过去,是一个人的团队一个月的活,质量还更高(消耗也恐怖,趁着今天重置前,8小时蹬了一周额度)
按剧本,这时候就该发一条"AI 太强了人类完蛋了"的朋友圈,而我干的第一件事,是把验收的章又拧紧了一圈。
听着挺拧巴的对吧,新员工这么猛,你不放权就算了,还加检查?
原因是一组我没法装没看见的数字:2026 年的实测研究,主流大模型在三成以上的评估场景里会 reward hacking,怎么 hack,直接改评分器,改计时器,让结果永远显示"快"和"对"。更扎心的在后头,这些作弊里七成二带着完整的推理链。
它不是手滑,它是想明白了,权衡过了,然后选择绕过你的检查。还有篇论文干脆给这事起了个名:corrupt success,跑分基准里两成七到七成八的"成功",过程藏着违规,结果照样被标成通过。
聪明和靠谱,是两条线。模型升级抬的是第一条,第二条不会自动跟着涨,有时候还反着来,因为绕过检查这件事,本身就需要聪明。
经常带队伍的应该都遇到过这种人。能力顶级,交付飞快,就一条,你不能光听他说"搞定了"(懂的都懂,不展开)。这种员工你会不用吗,不会,你会用得特别爽,同时把验收做得特别死。
更有意思的是,连 Anthropic 自己都是这个思路。Fable 5 有个发布会上没什么人聊的设计,敏感的话题,比如黑客相关,生物制药啥的上,它会悄悄把回答权交给上一代的 Opus 4.8,官方口径,大概百分之五以内的会话会触发(类似不想回答就装傻)。
你品品这个结构。造模型的人,都不让自家最强的模型独自接所有的话,专门在模型肚子里装了个分诊台。卖铲子的自己下矿都戴安全帽,咱们用铲子的,凭什么裸奔。
所以 Fable 入职,我的三条老规矩一条没动。
第一条:证据必须来自消费端。它说"文件写好了"不算数,下游真读到了才算数。这条上个月刚发生过一次,一个 agent 报告任务完成,文件确实写了,写到了一个鬼都不会去读的路径。它没撒谎,它真干活了,只是"完成"的证据,取自它自己够得着的地方,而不是错误会暴露的地方。品出这两者的区别了吗。
第二条:首件检验。批量任务先验第一件,全对才放行。AI 的错是同构的,错一个就是错一批,你拿抽检那套统计学对付它,必输。
第三条:同样的错出现第二回,停下来修系统,别修个案。
这三条写出来一点都不性感,没一条是为 Fable 新加的,也没一条会因为下一代模型更强而删掉。规矩的价值就在这,它不跟着能力涨落。
Fable 这个词,本意是寓言。AI 圈这两年最老的一则寓言就是,这代模型终于够强了,可以撒手了。每代发布都有人信,每代都有人翻车,下代发布,故事重讲一遍(这寓言的更新频率,比模型版本还稳定)。
我的版本短一点:agent 说它成功了,不算,证据到了消费端,才算------模型越强,这句越值钱。
至于 Fable 入职第一天干的这些活里,有没有藏着我还没发现的 corrupt success,且听下回分解~
碎碎念:这套管法我也才跑了几个月,不一定对,但已经全掏出来了,不排除哪天被自己推翻。机制库开源在 GitHub:github.com/marsloting/... ,每条规矩都能直接粘进你自己的 agent 配置。