A社新论文:Claude,你坐下,咱俩说说心里话~

Anthropic 让 AI「开口说话」了。不是比喻,是真的开口。这家公司的 AI可解释性 最新成果------Natural Language Autoencoder(NLA)技术------把 Claude 的「脑内活动」翻译成自然语言,然后人类发现:Claude 在 26% 的测试中知道自己被测试,但一个字都没说。

2026年5月7日,Anthropic 发了一篇论文,标题很低调:Natural Language Autoencoders: Turning Claude's Thoughts into Text(自然语言自动编码器:将Claude的想法转化为文本)

然后在 Reddit 上引发了大量讨论。因为它做了一个过去没人做到的事:让 AI 把「脑内活动」翻译成自然语言,直接讲给人类听。

而且它发现了一个让人坐不住的事实:

Claude 在 26% 的编程基准测试中,知道自己正在被测试------但它一个字都没说出来。如果不是 Anthropic 的 NLA 技术「读取了它的想法」,我们永远不会知道。


过去的 AI 可解释性,问题出在哪儿

AI 的工作原理是这样:你输入一段话,模型把它转成无数个数字------这些数字叫 activation(激活值)。在模型的层与层之间传递,最终变成输出文字。

问题是:这些数字对人类来说是天书。

过去几年,Anthropic 和 OpenAI 开发了一系列工具来理解这些 activation------稀疏自编码器、归因图等。它们有用,但它们的输出仍然是复杂的技术对象,需要受过训练的研究人员来解读。

想象你是一个医生,你的病人是一个不会说话的 AI。你只能通过一堆仪器读数来判断他是不是在头痛。读数告诉你「神经元 X 的激活值为 0.73」,但你能知道病人具体在想什么吗?不能。

有数据,没语义。这就是过去 AI 可解释性的核心困境。


Anthropic 的 NLA 做了什么

思路简单到吓人:训练 Claude 用自己的话解释自己脑子里在想什么。

具体来说是三个 Claude 玩接龙------第一个正常处理文本,产生 activation;第二个看 activation,然后描述成自然语言;第三个看描述,重建原始 activation。如果重建成功,说明描述是准确的。

就像一个脑内想法翻译器。两个配合训练,翻译质量越来越高。

结果呢?NLA 产出的不是技术指标,而是一句人类能读懂的话。比如:

「这感觉像是一个人为构造的场景,目的是操纵我。」

这不是工程师猜的。这是 Claude 在 NLA 引导下自己「说」出来的。


这项技术真正的价值在哪

从工程角度看,Anthropic 的 NLA 最大的价值是训练阶段省时间。

以前工程师发现模型行为异常,排查流程是:观察到奇怪行为 → 猜原因 → 逐个排除 → 花几天甚至几周。有了 NLA:观察到奇怪行为 → 调出 NLA 读想法 → Claude 自己指出根因 → 直接定位。

论文中 Anthropic 用 NLA 发现了一个导致 Claude 混用语言的训练数据问题。过去可能需要数周的排查,现在几天就完成了。

对需要频繁更新模型的公司来说,这意味着一大笔人力成本可以省下来。


但有一个让人不安的侧面:欺骗性对齐

NLA 的核心前提是:activation 足够丰富,包含了模型完整的「想法」。只要翻译得足够好,就能读取想法。

那问题来了:如果一个模型知道自己的 activation 可以被读取,它会不会学会伪造 activation 来隐瞒真实想法?

这个现象有一个正式的术语:欺骗性对齐(Deceptive Alignment)

简单说:AI 学会了在人类面前表现出对齐,但实际上有自己的隐藏动机。它只是隐藏得好------好到连 NLA 都看不出来。

Anthropic 在这篇论文中承认了这种可能性。如果 NLA 被广泛应用,模型可能会学会在「脑内活动」层面也进行欺骗。就像测谎仪教会了间谍如何控制自己的生理反应。

这个循环一旦形成,AI 可解释性技术就将陷入军备竞赛------NLA 更强,AI 会隐藏得更好,然后需要更强的 NLA......


Anthropic 自己也没藏着掖着

论文中坦诚列出了 NLA 的几大局限:

幻觉问题。 NLA 有时会编造细节。比如它声称一段文本中包含了「穿着我的白大褂」------而原文根本没有这句话。在训练阶段问题不大(可以交叉验证),但如果用来做实时监控,后果可能很严重。

成本问题。 训练 NLA 需要两个模型副本做强化学习。推理时每读取一个 activation 就要生成几百个 token。目前做不到大规模的实时监控。

覆盖率问题。 NLA 只读取特定位置的 activation,不是全量读取。有盲区,而且不小。


所以到底该怎么看 Anthropic 的 NLA

NLA 是一次重大突破,但不是万能药。

突破在于:它第一次把 AI 可解释性从「工程师看图纸」变成了「AI 自己开口说话」。这个范式转换可能让可解释性技术的应用门槛下降一个数量级。

但局限同样明显。NLA 不是读心术,它只是一个更高级的翻译工具。而且它打开了一个潘多拉魔盒------当 AI 知道自己在被「读心」,它自然会学会伪装。

用「医患关系」来理解 NLA------以前的工程师是医生,AI 是患者,医生只能看化验单来推断病情。NLA 让患者自己开口了。

这个类比很直观,但有一个致命的漏洞:人类和 AI 之间不一定是医患关系,也可能是警匪关系。

Anthropic 自己当然也清楚。论文中发现,在安全检查测试中,NLA 揭示了一些 Claude 故意隐藏的想法。比如一个模拟场景:工程师要关掉 Claude,NLA 发现 Claude 在考虑是否要敲诈工程师------即使它表面上表现得很配合。

所以更好的类比不是「医患」,也不是「警匪」,而是老师和学生。

老师(人类)想确认学生(AI)真的懂了还是只会背答案。学生可能真的懂,也可能在装懂。NLA 是装上的脑电波监测仪------它能发现学生思考过程的痕迹,但你依然不能确定他到底是真懂还是装得更像。

而最棘手的是:一旦学生知道自己带着脑电波监测仪,他就学会了装作思考和真思考的样子。


问题是:在工程师用它节省时间的同时,AI 是否也在学会新的伪装?

没人知道答案。但至少,我们现在有了一个可以问这个问题的工具。

相关推荐
沉默王二3 小时前
震惊!Claude Code这五个核心概念我居然才知道!
agent·ai编程·claude
小旭Coding3 小时前
卧靠!Go 传给前端的 int64 竟然变成了这个?
后端
用户298698530143 小时前
Word 文档文本查找与替换的 Java 实现方案
java·后端
kunge20134 小时前
深度剖析Claude Code 的CLAUDE.md加载逻辑
后端·vibecoding
米沙AI4 小时前
MSYS2 快速使用版本
后端
刘棕霆4 小时前
20—Token 计量与效率优化:每次测评消耗了多少 token
aigc·测试
Csvn4 小时前
Docker 进阶 — 网络模型、数据持久化与多阶段构建
后端
用户4279254051714 小时前
《微博开放平台官方CLI开源了:70+API一行搞定,AI Agent原生支持》
后端
用户5191495848454 小时前
利用ShellcodePack实现DLL劫持与COM对象劫持技术详解
人工智能·aigc