探索 AI 思维的剖析

作者: Ignacio de Gregorio

Anthropic 最近发表了一篇我几个月来(或者可能是有史以来)读过的最精彩的研究论文之一,深入剖析大型语言模型(LLMs)的结构,揭示了它们行为中一些非常有趣的方面。

我必须承认,这篇研究让我对 AI 的了解超过了我以前读过的大部分研究,而且它实际上迫使我重新思考了自己的直觉,因为它以一种全新的视角展现了 AI,有可能彻底改变我们未来对它们的理解。

如果你想被震撼,就继续看下去吧。

关于神经元的小小介绍

要理解 AI 是怎么思考的,我们首先得知道 AI 是什么。而目前大多数 AI 模型其实就是神经网络。

AI 的范畴远远不止神经网络,但今天咱们不展开讲了,因为这篇研究只聚焦在像 ChatGPT 这样的神经网络上。

那神经网络到底是什么?

简单来说,它们是由一堆叫做"神经元"的元素组成的网络,这些神经元之间彼此深度互联(可以把它粗略地类比成大脑里的神经元,虽然这个比喻其实挺松散的)。

准确的术语应该叫它们"隐藏单元",但这个词听起来没那么酷,是吧?

举个例子,像 ChatGPT 这样的 LLM,收到一组词作为输入后,它的任务就是预测下一个词。

上面这张图是 MLP 层,是 ChatGPT 整体架构的一部分,不是整个模型。只是帮你形象地理解一下神经元。

问题是?我们其实完全不知道它们为什么以及怎么工作的。

对我们来说,LLMs 就像一个黑盒,进行了一系列运算(每个运算单独看都很简单,但量巨大),然后像变魔术一样,准确地输出下一个词。

更糟的是,现在最前沿的模型有数千亿(对,billion 级别)的神经元在互动来完成预测。这让它们变得异常复杂,难以解开,也就是说,连最简单的预测,它们是怎么做出来的,我们都搞不清。

它们真的就是一个"就是能用"的黑盒子。

考虑到这些工具已经如此强大和重要,我想说,至少了解一下自己造了什么东西,应该是很有必要的吧。可惜,大多数时候我们都失败了。

那就完全没希望了吗?幸运的是,并不是。

神经元和特征

既然这些模型本质上就是一大坨叫做神经元的元素,那么解码它们行为的第一步逻辑就是监测神经元激活(什么时候、怎么激活)。比如说,我们给它们一个输入,观察哪些神经元激活来做出下一个预测。

神经元真的很奇怪

每次预测时,每个神经元都会被"查询",它要么返回一个数值传递到下一轮神经元,要么归零,不传递任何信息。越靠后的神经元,是依赖前面部分神经元的数据传过来的,所以它们要不要激活,取决于前面的神经元。

这就是我们说的激活或者"发火",这个术语受大脑神经元行为的影响很大------不过正如刚才说的,这种比较其实挺冒险,随便哪位神经科学家听了都会抓狂。

所以道理就是:如果我们能预测神经元的激活模式,就能预测模型的输出。

但,正如前面提到的,这是个超级难的问题。为什么呢?

理想情况下,我们应该能把单个神经元的激活对应到一个话题上,这样当某个特定神经元激活时,我们就能预测模型会输出什么内容。然而,研究人员很快发现,神经元是多义的,也就是说,它们会在多个看似无关的话题上激活。

比如,有个神经元在谈论莎士比亚的话题时总是激活,但在讨论墙纸的时候,它也激活。 这样我们就很难理解它们的行为了,对吧?

幸运的是,今天这篇论文的研究者们,Anthropic 的团队,之前就发现了一个非常有趣的现象:虽然单个神经元是多义的,但某些特定的神经元组合却是单义的(唯一关联到某个特定的输出)。

通俗点讲,他们发现,当模型中某些特定的神经元组合一起发火时,模型的输出通常就和分配给那个神经元组的话题相关了。

这就引出了"特征"的概念,允许我们把不同的神经元组合映射到具体的话题上。换句话说,我们可以给模型建立一张知识地图,知道它了解什么、不了解什么。

如果莎士比亚神经元激活了,模型就会预测莎士比亚的作品!

这种"激活的神经元路径"叫做归因图,因为它和模型的输出高度相关;只要那条路径激活了,就很大概率能把输出归因到那个神经元组合上!

一个归因图示例。来源

突然之间,我们找到了一个有希望的方法,从一团神秘又杂乱的神经元"泥潭",变成了一张可以解释的神经元电路网,我们能把特定的电路对应到特定的话题上,从而预测模型的行为。

为了实现这一点,Anthropic 引入了稀疏自动编码器(SAEs)的概念,这是目前我们用来做神经元电路-特征映射的主要方法。

当初他们发这套方法的时候,我也专门写过文章讲解过,不过了解 SAEs 不是今天理解本文核心内容的必需条件。

自然地,这让 Anthropic 更加深入地钻研了这个方向。

所以,几个月后,他们用这套方法去映射自己家的 Claude Sonnet LLM 的思维过程,结果发现了很多神奇的事情。比如,他们发现,当某个特定的神经元组合发火时,模型就倾向于谈论金门大桥。

这个关系强到什么程度呢?当研究人员强制激活那组神经元(就是所谓的"夹持"),模型几乎变成了金门大桥本人,深信自己就是金门大桥:

总结一下,到今天为止,我们已经有了这些认知:

  1. 我们找到了方法,可以把模型内部的神经元元素映射到具体的话题上,知道了"模型知道什么",把原本完全黑盒的东西,变成了一张解释模型知识的特征地图。
  2. 在完成映射之后,我们还学会了可以通过干预(比如夹持或降低相关神经元)来"引导"模型行为,带来可预测的行为(就像你可以夹持某个人类的神经元,强制它表现出某种特定行为一样)。

而现在,这些同样的研究人员(真是神仙团队)又把模型理解的边界推到了一个新的高度。

准备好被震撼吧

AI 思维的剖析

在最新的研究中,Anthropic 团队进一步提出了"特征图"的概念。

那什么是特征图呢?

我们知道,特定的神经元组合映射到特定的话题,但这玩意儿可太难直观呈现了。于是,我们改成构建一个"特征图",它更容易理解。

通俗地说,不再试图映射模型从输入到输出时激活的整个神经元轨迹(前面提到的归因图),而是把不同的神经元电路对应到不同的特征(概念),然后用特征来画出轨迹,使得一切更加易于理解。

从一坨神经元到一目了然的人类可读图。来源:Anthropic

如果你觉得这一切听起来有点怪,不要紧,很快你就会明白了。

首都电路

比如说,我们输入提示"德克萨斯州首府?"模型应该回答"奥斯汀"。 这时,我们不需要去观察数十亿个神经元怎么组合,而是通过之前讲的方法,把神经元世界转化为特征世界。

这样一来,模型的输出突然就变得容易理解了:

来源

但你看到的是什么呢?咱们分步骤说:

  1. 当模型看到"德克萨斯"这个词时,跟德克萨斯相关的话题神经元激活了。看到"首府"这个词时,跟首府相关的神经元也激活了。
  2. 一旦与首府相关的神经元激活,它们就会推动模型激活负责输出首府名称的神经元集合。
  3. 最后,与德克萨斯相关的神经元,加上"说一个首府"的神经元,一起促成了"奥斯汀"特征神经元的激活,引导模型预测出"奥斯汀"这个词,符合德州首府的常识。

那这意味着什么?

简单来说,LLM 的输出并不是魔法;最关键的是,它们的行为有机械性的解释!换句话说,LLMs 其实是可解释的。

也就是说,与输入相关的不同概念的神经元联合激活,从而促成正确的回答。那么,这算是"涌现推理"吗? 你可能此时想要抱持怀疑态度,觉得这没什么大不了的,这些电路不过是记忆模式,不是真正的推理。

我也有点倾向这么认为。

不过,这并不能证明模型到底是理解了"奥斯汀是德州首府"这种知识,还是只是死记硬背了"德州首府?奥斯汀"这种固定搭配。

DeepMind 最近也发了篇论文,研究怎么区分 LLM 是在记忆还是在真正学习知识,结果证明:LLMs 确实是在习得知识,而不仅仅是记忆。但我就不扯远了。

幸运的是,关于电路还有个特点,可以回答这个问题:它们是可以泛化的。

真正模块化和可适应的电路

比如说,拿同样的电路,如果我们把"德克萨斯"特征夹持归零(强制与德州相关的神经元不激活),模型仍然会预测一个首府......只是不会是德州的首府。

来源

甚至我们可以更进一步,通过控制其他州或国家的特征神经元,来让模型选出对应的首府:

来源

这意味着电路是通用而且可适应的。因此,模型用一套通用电路来回答州/国家首府的问题,只是根据输入调整电路的某一部分。

这就清楚地证明了,这不是死记硬背,模型确实理解了你在问什么(至少理解了区域和首府之间的关系),而不是简单地记住了固定搭配。

如果模型只是记忆,它应该为每个可能的提示组合训练出独一无二的电路,但事实并不是这样。 而且,Anthropic 还发现,模型能执行更复杂的电路。比如,针对提示"The capital of the state containing Dallas is...",模型就进行了一个多跳激活的过程,最后得出了奥斯汀。

来源

  1. 首先,模型看到"capital"和"state",促使与首府预测相关的神经元集合激活。
  2. 同时,看到"Dallas"后,模型又促成了与"德州"相关的神经元激活。
  3. 将"说一个首府"的需求与"德州"的知识结合起来,最终促使预测"奥斯汀"的神经元激活。

这感觉,跟人类回答这种问题的过程,简直一模一样。太神了吧?

但等一下,还有更炸裂的------模型还能提前规划。

自回归规划器

前几天,我在自己的 newsletter 里讲了 GPT-4o 的图像生成,还有自回归模型这个概念:模型是根据已经生成的词预测下一个词的。

理论上讲,它们只能回看,不能前瞻,对吧?

但在诗歌创作这种场景中,这种前瞻能力又至关重要。因为一首诗的第二句最后一个词,通常得押韵第一句的最后一个词。诗人们必须在写第二句的时候,同时满足两大约束:

  1. 这句话得有意义,
  2. 而且最后一个词要押韵。 所以,诗人往往要先想好押韵的那个词,再倒推着写出这一整句。神奇的是,研究人员发现,模型也能做到这一点!

你可以看到,当模型处理到"next line token"(换行符号)时,它已经在内部激活了像"rabbit"或者"habit"这种押韵词的神经元集合:

来源

换句话说,模型一旦看到要换行,就开始在内部促成多个押韵单词的激活,提前好几步思考未来要预测的单词。

也就是说,它在真正生成出一个词之前,已经在规划整个诗句的结果了!

太厉害了吧?而且我还可以继续讲下去,比如:

  1. 多语言电路。模型可以用一种语言无关的方式理解用户请求,用同一套电路适配不同输入语言来作答。
  2. 加法。简单加法是记忆的,但复杂加法模型是通过精密电路动态计算出来的。
  3. 复杂医学诊断。模型能分析报告的症状,促进后续提问,最终得出准确诊断。

还有很多。这些在论文里都有详细解释(还有配图),如果你想深入,可以去看原文。

那这一切到底意味着什么呢?有哪些影响?

结语

这里是这篇研究最重要的结论:

虽然有足够多的证据表明,模型依然在很大程度上依赖记忆模式(比如昨天 ByteDance 又发表了一篇论文,说明只要稍微改动提示词,模型性能就能大幅下降),但这是第一次我们有了机械性证据,证明模型在内部确实构建了可泛化的推理电路,哪怕只是很初步的水平。

换句话说,这项研究证明了,这些模型确实有超越单纯记忆的行为,甚至可以说,它们具备了一种原始形式的推理。 理由有四点:

  1. 这些电路是通用的,能用来回答相似但不完全相同的问题。如果模型只是在记忆,它应该为每个提示独立造一套电路,但事实不是这样。模型学会了抽象出关键模式,组装出解决问题的电路,并能在不同数据上应用。
  2. 这些电路是模块化的,可以组合成更复杂的电路来处理更难的问题。
  3. 电路可以被干预和调整,使模型变得更可预测、更可控。我坚信,这会成为未来模型对齐(alignment)的核心方法:屏蔽某些特征,就能屏蔽某些行为。尤其是在企业应用场景中,这种可预测性至关重要。
  4. 模型能提前规划。虽然模型是自回归、看历史的,但它能规划未来要生成什么单词,并调整当前生成,朝那个目标前进。规划是推理的重要组成部分,这证明了 LLMs 有一定程度的规划能力。

最后一个问题是:哪怕经历了海量数据训练,这种能力仍然很初级,这引发了一个担忧------它们的推理能力会不会最终陷入瓶颈?

我个人觉得,要想真正提升,还需要算法层面的突破,提升数据利用效率(让模型学得更快、更好)。否则,我们很可能面临性能瓶颈。

但,证据已经摆在眼前了:LLMs 还是很依赖记忆,但至少现在我们知道,它们不仅仅是记忆。我不知道你怎么想,但这项研究让我对我们目前的方向更加乐观了。

精彩的时代就在眼前!

相关推荐
~央千澈~1 小时前
对鸿蒙 Next 系统“成熟论”的深度剖析-优雅草卓伊凡
人工智能
Donvink1 小时前
【视频生成模型】通义万相Wan2.1模型本地部署和LoRA微调
人工智能·深度学习·aigc·音视频
訾博ZiBo1 小时前
AI日报 - 2025年04月29日
人工智能
爱喝奶茶的企鹅1 小时前
Ethan独立开发产品日报 | 2025-04-27
人工智能·程序员·开源
极小狐1 小时前
如何对极狐GitLab 议题进行过滤和排序?
人工智能·git·机器学习·gitlab
望获linux1 小时前
智能清洁机器人中的实时操作系统应用研究
大数据·linux·服务器·人工智能·机器人·操作系统
古月居GYH2 小时前
用高斯溅射技术跨越机器人模拟与现实的鸿沟:SplatSim 框架解析
人工智能·机器人
槑槑紫2 小时前
pytorch(gpu版本安装)
人工智能·pytorch·python
飞哥数智坊2 小时前
五一必备:手把手教你“即梦”APP轻松生成精美海报
人工智能