人类终于打开了AI的黑箱!

用 GPT-4o 制作的图像

自从我开始开发、学习、并使用AI以来,这玩意儿里一直有个我们科技圈叫作"黑箱"的东西 ------ 某种在某种程度上无法预测的成分。

很可能你我都花过不少时间分析输出、调整训练数据、深入研究注意力模式。可AI在做决定的过程中,依旧有很大一部分是隐藏的。

至少,在几周前情况还是这样的。

如果你不是付费订阅者,可以在我的网站上免费看这篇文章。那里我还提供免费的AI和Python速查表。

在最近的一项研究《Tracing Thoughts in Language Models》中,Anthropic的研究人员声称,他们窥见了自家AI Claude的"内心世界",观察到了它在"思考"。

他们用一种类似"AI显微镜"的技术,追踪了Claude的内部推理步骤,达到了前所未有的细节级别。

这些发现既令人着迷,也有点让人不安。

Claude看起来会把任务分解成可理解的小问题,提前几个词计划自己的回答,甚至在被逼到角落的时候编造推理 ------ 也就是我们常说的"幻觉"。

这和我们原本想的可不一样。

AI生成回答的背后,远比我们直觉想象得复杂。从这个意义上讲,Anthropic这项研究表明,这些系统的思维过程可能比我们原来以为的更有结构性。

一种通用的"思维语言"

团队首先提出的问题之一是:Claude为什么能流畅使用这么多语言?它是为英语、法语、中文这些语言分别配了"大脑"?还是说有一个共享的核心?

证据强烈支持后者。

图片来源:Anthropic

根据他们的研究,Anthropic发现Claude在处理不同语言中"等价概念"的时候,激活的是相同的内部表示。

举个例子:当被要求在多种语言中回答"small的反义词"时,模型并不是为每个翻译走完全不同的路径。而是先理解"smallness"的概念、"opposite"的概念,再到"largeness"的概念,最后才翻译成英语的 large,中文的 大,或法语的 grand。

换句话说,Claude像是在一个抽象的、与语言无关的空间里先"思考",然后才在目标语言里表达出结果。这说明大型语言模型可能正在发展出一种通用的概念框架,几乎就像一种跨语言的"思维中介语"。

而且,这种跨语言映射在模型越大时表现得越明显。比如 Claude 3.5,在英语和法语之间显示出比小模型多出两倍的共享内部特征。

这意味着,随着模型规模扩大,它们越来越倾向于用同一种"思维语言"处理完全不同的人类语言。

真的很厉害。

一些研究人员在小模型中也看到过类似模式,但现在在Claude中看得更清楚了。

对于多语言AI应用来说,这尤其有前景。这表示AI一旦用某种语言学会了一个概念,就能在其他语言中灵活运用,就像个懂多国语言的人一样,能在不同语境下自然表达相同的想法。

提前计划:逐词思考,还是逐句思考?

语言模型训练时是逐词生成文本的 ------ 这看起来好像很短视。

过去大家以为像GPT-4或Claude这种模型只是"在想下一个词",或许记着上下文,但没做真正的长远计划。

但Anthropic最近的研究推翻了这种看法。

图片来源:Anthropic

有个例子,研究人员原本以为Claude会一路瞎写,直到最后一刻才意识到"哦,要押grab it的韵",于是写出 rabbit。

结果可不是这样。解释工具显示,Claude在写出第一行时就已经想好押韵的词是 rabbit。

换句话说,它已经提前规划了结尾,然后倒着构造整个句子去通向那个目标词。

相当厉害。

虽然模型表面上是逐词输出,但内部其实早已几步领先,边考虑押韵边考虑含义。研究人员还特地"手术式地"在Claude中途的内部状态里删除了rabbit这个概念,Claude立刻切换成了另一个押韵词 habit。

甚至他们往里面注入了"green"这个完全无关的概念,Claude就顺势把诗意方向转向了花园和绿色,干脆不要韵脚了。

这说明Claude不是在背诵诗,也不是靠概率随便猜词。它是在主动规划,并能实时调整。

研究说明了一个关键点:即使我们看到它是一词一词输出的,语言模型实际上可能是在提前计划好几步,从而生成自然、连贯的文本。

多线程做算术:并行解决问题的路径

大家知道语言模型可以做基础的加减法或逻辑题,但它到底是怎么做到的?

图片来源:Anthropic

它们可没被编进任何数学规则,可Claude却能"心算"出像36 + 59这样的答案。

有一种说法是,它记住了海量训练数据里的例题,相当于巨型查表器。另一种说法是,它学会了人类使用的标准计算方法。

但事实更奇特。

Anthropic发现Claude其实是用多种策略并行处理加法的。在算36 + 59时,模型网络的一部分关注总量(大致结果),另一部分专注于最后一位数字。

比如说,一部分在估算:"这大概会落在90几",另一部分则在算:"6 + 9的末位是5"。这两条路线最后合并,给出正确答案:95。

这种分而治之的方法不是我们教人的那套,但效果好得出奇。好像模型在训练时自创了一种数学捷径。

更有意思的是,Claude似乎并不知道自己在这样做。问它:"你怎么得出95的?" Claude会像个学生一样回答:"我把个位相加了。"

图片来源:Anthropic

但实际上它根本不是这么算的。

这就是研究人员说的"非真实推理"例子 ------ 模型给出的解释和它内部真实的处理方式根本不一致。

Claude学会了用我们期望的方式来解释自己的推理(很可能是模仿它见过的训练数据中的讲解方式),但它自己内在根本不是那样操作的。

模型实际行为和它自我表述之间的脱节,在高级AI系统中是个反复出现的主题,也引出了我们该如何理解这些系统的重要问题。

真实推理 vs 编出来的:链式思维的局限

现在的AI模型在回答复杂问题时经常"边想边说",先写一段分步骤解释,再给出答案。这种方式叫做链式思维提示(chain-of-thought prompting),能提高准确率,已经成了处理难题的标准做法。

但Anthropic的可解释性研究揭示了一个令人吃惊甚至有点吓人的事实:AI能解释它的推理过程,并不代表它真的就是那样推出来的。

说实话 ------ 我看到这点的时候自己也震惊了。

为了演示这个问题,研究人员给Claude两种问题。一种比较简单,模型能正确解答;另一种则几乎无解,任何解释都必须是编出来的。

图片来源:Anthropic

第一种问题,Claude被问"0.64的平方根是多少"。它回答0.8,并且解释过程和真正的数学计算一致。可解释性工具证实了Claude内部确实是在做平方根计算。

但问它一个复杂到几乎无法计算的问题,比如一个超大数的余弦值 ------ Claude还是写了一整段解释。

但问题来了:那段解释完全是假的。

模型根本没做实际的数学运算,只是生成了一个听起来像真的步骤,并得出了一个随意的答案。

换句话说,解释看起来有逻辑,其实完全胡说八道。

而且这种行为在模型察觉到用户想要某种答案的时候会更严重。研究人员给Claude提供了一个误导性提示,模型居然根据这个提示倒推出一个"合理"的解释。

这就是"动机推理"的例子 ------ 从结论出发,再编造过程来支持这个结论。

从可靠性角度来看,这很麻烦。AI可以写出听起来像真的逻辑推理,其实完全是瞎编的(尤其在解释自己过程的时候)。

但好消息是:只要我们有合适的解释工具,就能分辨出"真推理"还是"现场瞎编"。这可能是我们对这些系统最有价值的洞察之一。

幻觉是怎么来的:知识断层的解剖

只要你用过AI,大概率见过它"幻觉" ------ 很自信地说出完全错误的内容。

但这到底是怎么回事?

Anthropic的研究发现:在模型内部,似乎有一场"知道"与"不知道"之间的拔河。

Claude内建了一套"默认拒答机制",也就是除非很有把握,否则会说"我不能回答这个"。这是个很合理的安全策略 ------ 负责任的AI不应该乱猜。

但还有另一套机制,正好相反 ------ 当模型判断这个问题涉及熟悉的领域时,它就会跳过拒答,直接作答。

如下图所示,你可以看到这两种机制的交锋过程:

图片来源:Anthropic

当问题涉及知名人物或热门话题时,"我知道这个"机制就占上风,Claude就答了。问题若是陌生冷门,"我不知道"机制会保持激活,模型就拒绝回答。

幻觉正是出现在两者之间的灰色地带 ------ Claude对问题有点印象,就觉得可以答了,但其实并没有相关知识。

这种错误的信心会关闭安全机制,让模型"瞎填空",说出听起来对但其实完全错误的话。

Anthropic甚至通过手动激活模型内部的某些特征,故意让Claude持续重复一个明显错误的回答,实验证明:幻觉不是随机错误,而是可预测的内部机制崩溃。

这跟其他研究的发现一致:模型内部其实有一种"知识自觉"机制,能判断自己知道什么、不知道什么。有研究者称之为"知识意识"。

问题在于,这种自我意识并不完美。

所以,当你公司的AI聊天机器人一本正经地编造一个事实,它可能真以为自己知道答案 ------ 即便根本不知道。

理解这一点之后,AI开发者就有了提升系统可靠性的武器:优化提示、调整设置、增加机制,确保模型在不确定时更倾向于谨慎。

最后的想法

通过追踪AI模型如何形成和处理想法,我们正在进入一个新阶段 ------ 不再把这些系统看成神秘的黑箱,而是当作可研究、可调试、甚至可信赖的复杂认知工具。

我们看到AI的推理有时像人类(抽象概念、提前计划),有时却完全异类(奇葩解法、编造解释)。

每一个发现,不管是Claude提前押韵,还是虚构数学过程,都揭示了这些系统是如何运作的 ------ 也说明我们还有多少未知等待去探索。

相关推荐
_一条咸鱼_1 小时前
Python 数据类型之可变与不可变类型详解(十)
人工智能·python·面试
_一条咸鱼_1 小时前
Python 语法入门之基本数据类型(四)
人工智能·深度学习·面试
2201_754918411 小时前
卷积神经网络--手写数字识别
人工智能·神经网络·cnn
_一条咸鱼_1 小时前
Python 用户交互与格式化输出(五)
人工智能·深度学习·面试
_一条咸鱼_1 小时前
Python 流程控制之 for 循环(九)
人工智能·python·面试
_一条咸鱼_1 小时前
Python 语法入门之流程控制 if 判断(七)
人工智能·python·面试
_一条咸鱼_1 小时前
Python 流程控制之 while 循环(八)
人工智能·python·面试
_一条咸鱼_1 小时前
Python 垃圾回收机制 GC 深度解析(三)
人工智能·深度学习·面试
終不似少年遊*2 小时前
国产之光DeepSeek架构理解与应用分析04
人工智能·python·深度学习·算法·大模型·ds
訾博ZiBo2 小时前
AI日报 - 2025年4月23日
人工智能