探索 AI 思维的剖析

作者: Ignacio de Gregorio

Anthropic 最近发表了一篇我几个月来（或者可能是有史以来）读过的最精彩的研究论文之一，深入剖析大型语言模型（LLMs）的结构，揭示了它们行为中一些非常有趣的方面。

我必须承认，这篇研究让我对 AI 的了解超过了我以前读过的大部分研究，而且它实际上迫使我重新思考了自己的直觉，因为它以一种全新的视角展现了 AI，有可能彻底改变我们未来对它们的理解。

如果你想被震撼，就继续看下去吧。

关于神经元的小小介绍

要理解 AI 是怎么思考的，我们首先得知道 AI 是什么。而目前大多数 AI 模型其实就是神经网络。

AI 的范畴远远不止神经网络，但今天咱们不展开讲了，因为这篇研究只聚焦在像 ChatGPT 这样的神经网络上。

那神经网络到底是什么？

简单来说，它们是由一堆叫做"神经元"的元素组成的网络，这些神经元之间彼此深度互联（可以把它粗略地类比成大脑里的神经元，虽然这个比喻其实挺松散的）。

准确的术语应该叫它们"隐藏单元"，但这个词听起来没那么酷，是吧？

举个例子，像 ChatGPT 这样的 LLM，收到一组词作为输入后，它的任务就是预测下一个词。

上面这张图是 MLP 层，是 ChatGPT 整体架构的一部分，不是整个模型。只是帮你形象地理解一下神经元。

问题是？我们其实完全不知道它们为什么以及怎么工作的。

对我们来说，LLMs 就像一个黑盒，进行了一系列运算（每个运算单独看都很简单，但量巨大），然后像变魔术一样，准确地输出下一个词。

更糟的是，现在最前沿的模型有数千亿（对，billion 级别）的神经元在互动来完成预测。这让它们变得异常复杂，难以解开，也就是说，连最简单的预测，它们是怎么做出来的，我们都搞不清。

它们真的就是一个"就是能用"的黑盒子。

考虑到这些工具已经如此强大和重要，我想说，至少了解一下自己造了什么东西，应该是很有必要的吧。可惜，大多数时候我们都失败了。

那就完全没希望了吗？幸运的是，并不是。

神经元和特征

既然这些模型本质上就是一大坨叫做神经元的元素，那么解码它们行为的第一步逻辑就是监测神经元激活（什么时候、怎么激活）。比如说，我们给它们一个输入，观察哪些神经元激活来做出下一个预测。

神经元真的很奇怪

每次预测时，每个神经元都会被"查询"，它要么返回一个数值传递到下一轮神经元，要么归零，不传递任何信息。越靠后的神经元，是依赖前面部分神经元的数据传过来的，所以它们要不要激活，取决于前面的神经元。

这就是我们说的激活或者"发火"，这个术语受大脑神经元行为的影响很大------不过正如刚才说的，这种比较其实挺冒险，随便哪位神经科学家听了都会抓狂。

所以道理就是：如果我们能预测神经元的激活模式，就能预测模型的输出。

但，正如前面提到的，这是个超级难的问题。为什么呢？

理想情况下，我们应该能把单个神经元的激活对应到一个话题上，这样当某个特定神经元激活时，我们就能预测模型会输出什么内容。然而，研究人员很快发现，神经元是多义的，也就是说，它们会在多个看似无关的话题上激活。

比如，有个神经元在谈论莎士比亚的话题时总是激活，但在讨论墙纸的时候，它也激活。这样我们就很难理解它们的行为了，对吧？

幸运的是，今天这篇论文的研究者们，Anthropic 的团队，之前就发现了一个非常有趣的现象：虽然单个神经元是多义的，但某些特定的神经元组合却是单义的（唯一关联到某个特定的输出）。

通俗点讲，他们发现，当模型中某些特定的神经元组合一起发火时，模型的输出通常就和分配给那个神经元组的话题相关了。

这就引出了"特征"的概念，允许我们把不同的神经元组合映射到具体的话题上。换句话说，我们可以给模型建立一张知识地图，知道它了解什么、不了解什么。

如果莎士比亚神经元激活了，模型就会预测莎士比亚的作品！

这种"激活的神经元路径"叫做归因图，因为它和模型的输出高度相关；只要那条路径激活了，就很大概率能把输出归因到那个神经元组合上！

一个归因图示例。来源

突然之间，我们找到了一个有希望的方法，从一团神秘又杂乱的神经元"泥潭"，变成了一张可以解释的神经元电路网，我们能把特定的电路对应到特定的话题上，从而预测模型的行为。

为了实现这一点，Anthropic 引入了稀疏自动编码器（SAEs）的概念，这是目前我们用来做神经元电路-特征映射的主要方法。

当初他们发这套方法的时候，我也专门写过文章讲解过，不过了解 SAEs 不是今天理解本文核心内容的必需条件。

自然地，这让 Anthropic 更加深入地钻研了这个方向。

所以，几个月后，他们用这套方法去映射自己家的 Claude Sonnet LLM 的思维过程，结果发现了很多神奇的事情。比如，他们发现，当某个特定的神经元组合发火时，模型就倾向于谈论金门大桥。

这个关系强到什么程度呢？当研究人员强制激活那组神经元（就是所谓的"夹持"），模型几乎变成了金门大桥本人，深信自己就是金门大桥：

总结一下，到今天为止，我们已经有了这些认知：

我们找到了方法，可以把模型内部的神经元元素映射到具体的话题上，知道了"模型知道什么"，把原本完全黑盒的东西，变成了一张解释模型知识的特征地图。
在完成映射之后，我们还学会了可以通过干预（比如夹持或降低相关神经元）来"引导"模型行为，带来可预测的行为（就像你可以夹持某个人类的神经元，强制它表现出某种特定行为一样）。

而现在，这些同样的研究人员（真是神仙团队）又把模型理解的边界推到了一个新的高度。

准备好被震撼吧

AI 思维的剖析

在最新的研究中，Anthropic 团队进一步提出了"特征图"的概念。

那什么是特征图呢？

我们知道，特定的神经元组合映射到特定的话题，但这玩意儿可太难直观呈现了。于是，我们改成构建一个"特征图"，它更容易理解。

通俗地说，不再试图映射模型从输入到输出时激活的整个神经元轨迹（前面提到的归因图），而是把不同的神经元电路对应到不同的特征（概念），然后用特征来画出轨迹，使得一切更加易于理解。

从一坨神经元到一目了然的人类可读图。来源：Anthropic

如果你觉得这一切听起来有点怪，不要紧，很快你就会明白了。

首都电路

比如说，我们输入提示"德克萨斯州首府？"模型应该回答"奥斯汀"。这时，我们不需要去观察数十亿个神经元怎么组合，而是通过之前讲的方法，把神经元世界转化为特征世界。

这样一来，模型的输出突然就变得容易理解了：

来源

但你看到的是什么呢？咱们分步骤说：

当模型看到"德克萨斯"这个词时，跟德克萨斯相关的话题神经元激活了。看到"首府"这个词时，跟首府相关的神经元也激活了。
一旦与首府相关的神经元激活，它们就会推动模型激活负责输出首府名称的神经元集合。
最后，与德克萨斯相关的神经元，加上"说一个首府"的神经元，一起促成了"奥斯汀"特征神经元的激活，引导模型预测出"奥斯汀"这个词，符合德州首府的常识。

那这意味着什么？

简单来说，LLM 的输出并不是魔法；最关键的是，它们的行为有机械性的解释！换句话说，LLMs 其实是可解释的。

也就是说，与输入相关的不同概念的神经元联合激活，从而促成正确的回答。那么，这算是"涌现推理"吗？你可能此时想要抱持怀疑态度，觉得这没什么大不了的，这些电路不过是记忆模式，不是真正的推理。

我也有点倾向这么认为。

不过，这并不能证明模型到底是理解了"奥斯汀是德州首府"这种知识，还是只是死记硬背了"德州首府？奥斯汀"这种固定搭配。

DeepMind 最近也发了篇论文，研究怎么区分 LLM 是在记忆还是在真正学习知识，结果证明：LLMs 确实是在习得知识，而不仅仅是记忆。但我就不扯远了。

幸运的是，关于电路还有个特点，可以回答这个问题：它们是可以泛化的。

真正模块化和可适应的电路

比如说，拿同样的电路，如果我们把"德克萨斯"特征夹持归零（强制与德州相关的神经元不激活），模型仍然会预测一个首府......只是不会是德州的首府。

来源

甚至我们可以更进一步，通过控制其他州或国家的特征神经元，来让模型选出对应的首府：

来源

这意味着电路是通用而且可适应的。因此，模型用一套通用电路来回答州/国家首府的问题，只是根据输入调整电路的某一部分。

这就清楚地证明了，这不是死记硬背，模型确实理解了你在问什么（至少理解了区域和首府之间的关系），而不是简单地记住了固定搭配。

如果模型只是记忆，它应该为每个可能的提示组合训练出独一无二的电路，但事实并不是这样。而且，Anthropic 还发现，模型能执行更复杂的电路。比如，针对提示"The capital of the state containing Dallas is..."，模型就进行了一个多跳激活的过程，最后得出了奥斯汀。

来源

首先，模型看到"capital"和"state"，促使与首府预测相关的神经元集合激活。
同时，看到"Dallas"后，模型又促成了与"德州"相关的神经元激活。
将"说一个首府"的需求与"德州"的知识结合起来，最终促使预测"奥斯汀"的神经元激活。

这感觉，跟人类回答这种问题的过程，简直一模一样。太神了吧？

但等一下，还有更炸裂的------模型还能提前规划。

自回归规划器

前几天，我在自己的 newsletter 里讲了 GPT-4o 的图像生成，还有自回归模型这个概念：模型是根据已经生成的词预测下一个词的。

理论上讲，它们只能回看，不能前瞻，对吧？

但在诗歌创作这种场景中，这种前瞻能力又至关重要。因为一首诗的第二句最后一个词，通常得押韵第一句的最后一个词。诗人们必须在写第二句的时候，同时满足两大约束：

这句话得有意义，
而且最后一个词要押韵。所以，诗人往往要先想好押韵的那个词，再倒推着写出这一整句。神奇的是，研究人员发现，模型也能做到这一点！

你可以看到，当模型处理到"next line token"（换行符号）时，它已经在内部激活了像"rabbit"或者"habit"这种押韵词的神经元集合：

、

来源

换句话说，模型一旦看到要换行，就开始在内部促成多个押韵单词的激活，提前好几步思考未来要预测的单词。

也就是说，它在真正生成出一个词之前，已经在规划整个诗句的结果了！

太厉害了吧？而且我还可以继续讲下去，比如：

多语言电路。模型可以用一种语言无关的方式理解用户请求，用同一套电路适配不同输入语言来作答。
加法。简单加法是记忆的，但复杂加法模型是通过精密电路动态计算出来的。
复杂医学诊断。模型能分析报告的症状，促进后续提问，最终得出准确诊断。

还有很多。这些在论文里都有详细解释（还有配图），如果你想深入，可以去看原文。

那这一切到底意味着什么呢？有哪些影响？

结语

这里是这篇研究最重要的结论：

虽然有足够多的证据表明，模型依然在很大程度上依赖记忆模式（比如昨天 ByteDance 又发表了一篇论文，说明只要稍微改动提示词，模型性能就能大幅下降），但这是第一次我们有了机械性证据，证明模型在内部确实构建了可泛化的推理电路，哪怕只是很初步的水平。

换句话说，这项研究证明了，这些模型确实有超越单纯记忆的行为，甚至可以说，它们具备了一种原始形式的推理。理由有四点：

这些电路是通用的，能用来回答相似但不完全相同的问题。如果模型只是在记忆，它应该为每个提示独立造一套电路，但事实不是这样。模型学会了抽象出关键模式，组装出解决问题的电路，并能在不同数据上应用。
这些电路是模块化的，可以组合成更复杂的电路来处理更难的问题。
电路可以被干预和调整，使模型变得更可预测、更可控。我坚信，这会成为未来模型对齐（alignment）的核心方法：屏蔽某些特征，就能屏蔽某些行为。尤其是在企业应用场景中，这种可预测性至关重要。
模型能提前规划。虽然模型是自回归、看历史的，但它能规划未来要生成什么单词，并调整当前生成，朝那个目标前进。规划是推理的重要组成部分，这证明了 LLMs 有一定程度的规划能力。

最后一个问题是：哪怕经历了海量数据训练，这种能力仍然很初级，这引发了一个担忧------它们的推理能力会不会最终陷入瓶颈？

我个人觉得，要想真正提升，还需要算法层面的突破，提升数据利用效率（让模型学得更快、更好）。否则，我们很可能面临性能瓶颈。

但，证据已经摆在眼前了：LLMs 还是很依赖记忆，但至少现在我们知道，它们不仅仅是记忆。我不知道你怎么想，但这项研究让我对我们目前的方向更加乐观了。

精彩的时代就在眼前！