探索 AI 思维的剖析

作者: Ignacio de Gregorio

Anthropic 最近发表了一篇我几个月来(或者可能是有史以来)读过的最精彩的研究论文之一,深入剖析大型语言模型(LLMs)的结构,揭示了它们行为中一些非常有趣的方面。

我必须承认,这篇研究让我对 AI 的了解超过了我以前读过的大部分研究,而且它实际上迫使我重新思考了自己的直觉,因为它以一种全新的视角展现了 AI,有可能彻底改变我们未来对它们的理解。

如果你想被震撼,就继续看下去吧。

关于神经元的小小介绍

要理解 AI 是怎么思考的,我们首先得知道 AI 是什么。而目前大多数 AI 模型其实就是神经网络。

AI 的范畴远远不止神经网络,但今天咱们不展开讲了,因为这篇研究只聚焦在像 ChatGPT 这样的神经网络上。

那神经网络到底是什么?

简单来说,它们是由一堆叫做"神经元"的元素组成的网络,这些神经元之间彼此深度互联(可以把它粗略地类比成大脑里的神经元,虽然这个比喻其实挺松散的)。

准确的术语应该叫它们"隐藏单元",但这个词听起来没那么酷,是吧?

举个例子,像 ChatGPT 这样的 LLM,收到一组词作为输入后,它的任务就是预测下一个词。

上面这张图是 MLP 层,是 ChatGPT 整体架构的一部分,不是整个模型。只是帮你形象地理解一下神经元。

问题是?我们其实完全不知道它们为什么以及怎么工作的。

对我们来说,LLMs 就像一个黑盒,进行了一系列运算(每个运算单独看都很简单,但量巨大),然后像变魔术一样,准确地输出下一个词。

更糟的是,现在最前沿的模型有数千亿(对,billion 级别)的神经元在互动来完成预测。这让它们变得异常复杂,难以解开,也就是说,连最简单的预测,它们是怎么做出来的,我们都搞不清。

它们真的就是一个"就是能用"的黑盒子。

考虑到这些工具已经如此强大和重要,我想说,至少了解一下自己造了什么东西,应该是很有必要的吧。可惜,大多数时候我们都失败了。

那就完全没希望了吗?幸运的是,并不是。

神经元和特征

既然这些模型本质上就是一大坨叫做神经元的元素,那么解码它们行为的第一步逻辑就是监测神经元激活(什么时候、怎么激活)。比如说,我们给它们一个输入,观察哪些神经元激活来做出下一个预测。

神经元真的很奇怪

每次预测时,每个神经元都会被"查询",它要么返回一个数值传递到下一轮神经元,要么归零,不传递任何信息。越靠后的神经元,是依赖前面部分神经元的数据传过来的,所以它们要不要激活,取决于前面的神经元。

这就是我们说的激活或者"发火",这个术语受大脑神经元行为的影响很大------不过正如刚才说的,这种比较其实挺冒险,随便哪位神经科学家听了都会抓狂。

所以道理就是:如果我们能预测神经元的激活模式,就能预测模型的输出。

但,正如前面提到的,这是个超级难的问题。为什么呢?

理想情况下,我们应该能把单个神经元的激活对应到一个话题上,这样当某个特定神经元激活时,我们就能预测模型会输出什么内容。然而,研究人员很快发现,神经元是多义的,也就是说,它们会在多个看似无关的话题上激活。

比如,有个神经元在谈论莎士比亚的话题时总是激活,但在讨论墙纸的时候,它也激活。 这样我们就很难理解它们的行为了,对吧?

幸运的是,今天这篇论文的研究者们,Anthropic 的团队,之前就发现了一个非常有趣的现象:虽然单个神经元是多义的,但某些特定的神经元组合却是单义的(唯一关联到某个特定的输出)。

通俗点讲,他们发现,当模型中某些特定的神经元组合一起发火时,模型的输出通常就和分配给那个神经元组的话题相关了。

这就引出了"特征"的概念,允许我们把不同的神经元组合映射到具体的话题上。换句话说,我们可以给模型建立一张知识地图,知道它了解什么、不了解什么。

如果莎士比亚神经元激活了,模型就会预测莎士比亚的作品!

这种"激活的神经元路径"叫做归因图,因为它和模型的输出高度相关;只要那条路径激活了,就很大概率能把输出归因到那个神经元组合上!

一个归因图示例。来源

突然之间,我们找到了一个有希望的方法,从一团神秘又杂乱的神经元"泥潭",变成了一张可以解释的神经元电路网,我们能把特定的电路对应到特定的话题上,从而预测模型的行为。

为了实现这一点,Anthropic 引入了稀疏自动编码器(SAEs)的概念,这是目前我们用来做神经元电路-特征映射的主要方法。

当初他们发这套方法的时候,我也专门写过文章讲解过,不过了解 SAEs 不是今天理解本文核心内容的必需条件。

自然地,这让 Anthropic 更加深入地钻研了这个方向。

所以,几个月后,他们用这套方法去映射自己家的 Claude Sonnet LLM 的思维过程,结果发现了很多神奇的事情。比如,他们发现,当某个特定的神经元组合发火时,模型就倾向于谈论金门大桥。

这个关系强到什么程度呢?当研究人员强制激活那组神经元(就是所谓的"夹持"),模型几乎变成了金门大桥本人,深信自己就是金门大桥:

总结一下,到今天为止,我们已经有了这些认知:

  1. 我们找到了方法,可以把模型内部的神经元元素映射到具体的话题上,知道了"模型知道什么",把原本完全黑盒的东西,变成了一张解释模型知识的特征地图。
  2. 在完成映射之后,我们还学会了可以通过干预(比如夹持或降低相关神经元)来"引导"模型行为,带来可预测的行为(就像你可以夹持某个人类的神经元,强制它表现出某种特定行为一样)。

而现在,这些同样的研究人员(真是神仙团队)又把模型理解的边界推到了一个新的高度。

准备好被震撼吧

AI 思维的剖析

在最新的研究中,Anthropic 团队进一步提出了"特征图"的概念。

那什么是特征图呢?

我们知道,特定的神经元组合映射到特定的话题,但这玩意儿可太难直观呈现了。于是,我们改成构建一个"特征图",它更容易理解。

通俗地说,不再试图映射模型从输入到输出时激活的整个神经元轨迹(前面提到的归因图),而是把不同的神经元电路对应到不同的特征(概念),然后用特征来画出轨迹,使得一切更加易于理解。

从一坨神经元到一目了然的人类可读图。来源:Anthropic

如果你觉得这一切听起来有点怪,不要紧,很快你就会明白了。

首都电路

比如说,我们输入提示"德克萨斯州首府?"模型应该回答"奥斯汀"。 这时,我们不需要去观察数十亿个神经元怎么组合,而是通过之前讲的方法,把神经元世界转化为特征世界。

这样一来,模型的输出突然就变得容易理解了:

来源

但你看到的是什么呢?咱们分步骤说:

  1. 当模型看到"德克萨斯"这个词时,跟德克萨斯相关的话题神经元激活了。看到"首府"这个词时,跟首府相关的神经元也激活了。
  2. 一旦与首府相关的神经元激活,它们就会推动模型激活负责输出首府名称的神经元集合。
  3. 最后,与德克萨斯相关的神经元,加上"说一个首府"的神经元,一起促成了"奥斯汀"特征神经元的激活,引导模型预测出"奥斯汀"这个词,符合德州首府的常识。

那这意味着什么?

简单来说,LLM 的输出并不是魔法;最关键的是,它们的行为有机械性的解释!换句话说,LLMs 其实是可解释的。

也就是说,与输入相关的不同概念的神经元联合激活,从而促成正确的回答。那么,这算是"涌现推理"吗? 你可能此时想要抱持怀疑态度,觉得这没什么大不了的,这些电路不过是记忆模式,不是真正的推理。

我也有点倾向这么认为。

不过,这并不能证明模型到底是理解了"奥斯汀是德州首府"这种知识,还是只是死记硬背了"德州首府?奥斯汀"这种固定搭配。

DeepMind 最近也发了篇论文,研究怎么区分 LLM 是在记忆还是在真正学习知识,结果证明:LLMs 确实是在习得知识,而不仅仅是记忆。但我就不扯远了。

幸运的是,关于电路还有个特点,可以回答这个问题:它们是可以泛化的。

真正模块化和可适应的电路

比如说,拿同样的电路,如果我们把"德克萨斯"特征夹持归零(强制与德州相关的神经元不激活),模型仍然会预测一个首府......只是不会是德州的首府。

来源

甚至我们可以更进一步,通过控制其他州或国家的特征神经元,来让模型选出对应的首府:

来源

这意味着电路是通用而且可适应的。因此,模型用一套通用电路来回答州/国家首府的问题,只是根据输入调整电路的某一部分。

这就清楚地证明了,这不是死记硬背,模型确实理解了你在问什么(至少理解了区域和首府之间的关系),而不是简单地记住了固定搭配。

如果模型只是记忆,它应该为每个可能的提示组合训练出独一无二的电路,但事实并不是这样。 而且,Anthropic 还发现,模型能执行更复杂的电路。比如,针对提示"The capital of the state containing Dallas is...",模型就进行了一个多跳激活的过程,最后得出了奥斯汀。

来源

  1. 首先,模型看到"capital"和"state",促使与首府预测相关的神经元集合激活。
  2. 同时,看到"Dallas"后,模型又促成了与"德州"相关的神经元激活。
  3. 将"说一个首府"的需求与"德州"的知识结合起来,最终促使预测"奥斯汀"的神经元激活。

这感觉,跟人类回答这种问题的过程,简直一模一样。太神了吧?

但等一下,还有更炸裂的------模型还能提前规划。

自回归规划器

前几天,我在自己的 newsletter 里讲了 GPT-4o 的图像生成,还有自回归模型这个概念:模型是根据已经生成的词预测下一个词的。

理论上讲,它们只能回看,不能前瞻,对吧?

但在诗歌创作这种场景中,这种前瞻能力又至关重要。因为一首诗的第二句最后一个词,通常得押韵第一句的最后一个词。诗人们必须在写第二句的时候,同时满足两大约束:

  1. 这句话得有意义,
  2. 而且最后一个词要押韵。 所以,诗人往往要先想好押韵的那个词,再倒推着写出这一整句。神奇的是,研究人员发现,模型也能做到这一点!

你可以看到,当模型处理到"next line token"(换行符号)时,它已经在内部激活了像"rabbit"或者"habit"这种押韵词的神经元集合:

来源

换句话说,模型一旦看到要换行,就开始在内部促成多个押韵单词的激活,提前好几步思考未来要预测的单词。

也就是说,它在真正生成出一个词之前,已经在规划整个诗句的结果了!

太厉害了吧?而且我还可以继续讲下去,比如:

  1. 多语言电路。模型可以用一种语言无关的方式理解用户请求,用同一套电路适配不同输入语言来作答。
  2. 加法。简单加法是记忆的,但复杂加法模型是通过精密电路动态计算出来的。
  3. 复杂医学诊断。模型能分析报告的症状,促进后续提问,最终得出准确诊断。

还有很多。这些在论文里都有详细解释(还有配图),如果你想深入,可以去看原文。

那这一切到底意味着什么呢?有哪些影响?

结语

这里是这篇研究最重要的结论:

虽然有足够多的证据表明,模型依然在很大程度上依赖记忆模式(比如昨天 ByteDance 又发表了一篇论文,说明只要稍微改动提示词,模型性能就能大幅下降),但这是第一次我们有了机械性证据,证明模型在内部确实构建了可泛化的推理电路,哪怕只是很初步的水平。

换句话说,这项研究证明了,这些模型确实有超越单纯记忆的行为,甚至可以说,它们具备了一种原始形式的推理。 理由有四点:

  1. 这些电路是通用的,能用来回答相似但不完全相同的问题。如果模型只是在记忆,它应该为每个提示独立造一套电路,但事实不是这样。模型学会了抽象出关键模式,组装出解决问题的电路,并能在不同数据上应用。
  2. 这些电路是模块化的,可以组合成更复杂的电路来处理更难的问题。
  3. 电路可以被干预和调整,使模型变得更可预测、更可控。我坚信,这会成为未来模型对齐(alignment)的核心方法:屏蔽某些特征,就能屏蔽某些行为。尤其是在企业应用场景中,这种可预测性至关重要。
  4. 模型能提前规划。虽然模型是自回归、看历史的,但它能规划未来要生成什么单词,并调整当前生成,朝那个目标前进。规划是推理的重要组成部分,这证明了 LLMs 有一定程度的规划能力。

最后一个问题是:哪怕经历了海量数据训练,这种能力仍然很初级,这引发了一个担忧------它们的推理能力会不会最终陷入瓶颈?

我个人觉得,要想真正提升,还需要算法层面的突破,提升数据利用效率(让模型学得更快、更好)。否则,我们很可能面临性能瓶颈。

但,证据已经摆在眼前了:LLMs 还是很依赖记忆,但至少现在我们知道,它们不仅仅是记忆。我不知道你怎么想,但这项研究让我对我们目前的方向更加乐观了。

精彩的时代就在眼前!

相关推荐
NAGNIP12 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab13 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab13 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP17 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年17 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼17 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS17 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区18 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈18 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang19 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx