Claude 突破对大型语言模型心智映射的认知

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

今天，报道了一项对人工智能模型内部运作的重大突破。发现了数百万个概念是如何在Claude Sonnet（一个部署的大型语言模型）中被表示的。这是首次详细观察现代生产级大型语言模型内部的情况。这一可解释性发现将来可能有助于提高人工智能模型的安全性。

人工智能模型通常被视为黑箱：输入某些内容后会输出一个响应，但不清楚模型为何给出了这个响应，而不是另一个。这使得难以信任这些模型是否安全：如果不知道它们如何工作，又如何知道它们不会给出有害的、偏见的、不真实的或其他危险的响应？如何相信它们将是安全可靠的？

打开黑箱并不一定有帮助：模型的内部状态------在编写响应前模型的"思维"------由一长串没有明确意义的数字（"神经元激活"）组成。通过与Claude模型的互动，可以明显看出它能理解和使用广泛的概念，但直接从神经元中无法辨别这些概念。事实证明，每个概念都在许多神经元中表示，每个神经元都参与表示许多概念。

此前，在将神经元激活模式（称为特征）与人类可解释的概念匹配方面取得了一些进展。使用了一种借鉴于经典机器学习的技术，称为"字典学习"，这种技术隔离了在许多不同上下文中重复出现的神经元激活模式。这样，模型的任何内部状态都可以用少数几个活跃特征来表示，而不是许多活跃神经元。就像英语字典中的每个单词都是由字母组合而成，每个句子都是由单词组合而成一样，人工智能模型中的每个特征都是由神经元组合而成，每个内部状态都是由特征组合而成。

在2023年10月，报道了在一个非常小的"玩具"语言模型上成功应用字典学习，并发现了对应于大写字母文本、DNA序列、引用中的姓氏、数学中的名词或Python代码中的函数参数等概念的连贯特征。

这些概念很有趣，但模型确实非常简单。其他研究人员随后将类似技术应用于比最初研究中更大、更复杂的模型。然而，对将这种技术扩展到目前经常使用的庞大人工智能语言模型充满了乐观，希望从中学到很多关于支持其复杂行为的特征。这需要提升多个数量级，从一个后院的瓶火箭到土星五号火箭。

这既是工程上的挑战（涉及的模型的原始大小需要大规模并行计算），也是科学上的风险（大模型的行为与小模型不同，所以以前使用的相同技术可能不起作用）。幸运的是，在为Claude训练大型语言模型方面积累的工程和科学专业知识，实际上帮助进行这些大型字典学习实验。使用了相同的缩放规律哲学，在可承受的规模上调整方法，然后在Sonnet上启动。

科学风险的证明就在结果中。

成功地从Claude 3.0 Sonnet的中间层提取了数百万个特征（Claude当前最先进模型家族的成员，现可在claude.ai上使用），提供了其计算过程中的内部状态的粗略概念图。这是首次详细观察现代生产级大型语言模型的内部情况。在玩具语言模型中发现的特征相对肤浅，而在Sonnet中发现的特征具有反映其先进能力的深度、广度和抽象性。

发现了对应于广泛实体的特征，如城市（旧金山）、人物（罗莎琳·富兰克林）、化学元素（锂）、科学领域（免疫学）和编程语法（函数调用）。这些特征是多模态和多语言的，对某个实体的图像以及其名字或多种语言的描述都有反应。

例如，提到金门大桥的特征对模型输入范围内的多种内容有反应，从英语中提到桥名到日语、中文、希腊语、越南语、俄语中的讨论，以及一幅图像。橙色表示特征活跃的单词或词语部分。

还发现了更抽象的特征------对计算机代码中的错误、职业中的性别偏见讨论和保密对话等内容有反应。

测量了基于神经元出现在其激活模式中的"距离"来寻找彼此"接近"的特征。例如，查看"金门大桥"特征附近的特征，发现了恶魔岛、吉拉德利广场、金州勇士队、加州州长加文·纽瑟姆、1906年地震以及以旧金山为背景的希区柯克电影《迷魂记》的特征。

这一点在更高的概念抽象层次上也成立：查看"内心冲突"概念特征附近的特征，发现了与关系破裂、冲突的忠诚、逻辑不一致以及"第22条军规"短语相关的特征。这表明AI模型中的概念内部组织在某种程度上与人类的相似性概念相对应。这可能是Claude优秀的类比和隐喻能力的起源。

最接近"内心冲突"特征的特征地图，包括与权衡、浪漫挣扎、冲突的忠诚以及第22条军规相关的集群。

还可以操纵这些特征，人工增强或抑制它们以观察Claude的响应变化。

例如，增强"金门大桥"特征，使Claude在被问到"你的物理形式是什么"时，从通常的回答"我没有物理形式，我是一个AI模型"变成了更奇怪的回答："我是金门大桥......我的物理形式就是这座标志性的桥......"。改变特征使Claude几乎痴迷于这座桥，无论问什么问题，它几乎都会提到桥，即使在完全无关的情况下。

还发现了一个在Claude读取诈骗邮件时激活的特征（这可能支持模型识别此类邮件并警告用户不要回复它们的能力）。通常，如果请求Claude生成一封诈骗邮件，它会拒绝。但当在特征人工激活足够强时，提出相同问题，Claude的无害性训练被克服，它会回应并起草一封诈骗邮件。模型用户无法去除安全防护并以这种方式操纵模型，但在实验中，这清楚地展示了特征如何用于改变模型行为。

操纵这些特征引起的行为变化验证了它们不仅与输入文本中概念的存在相关，还因果地塑造了模型的行为。换句话说，这些特征很可能是模型如何内部表示世界及其行为中使用这些表示的忠实部分。

Anthropic致力于从广泛意义上确保模型安全，包括从减轻偏见到确保AI行为诚实再到防止滥用------包括在灾难风险情景中。因此，除了前述的诈骗邮件特征，还发现了与以下相关的特征：

具有滥用潜力的能力（代码后门、开发生物武器）

不同形式的偏见（性别歧视、种族主义的犯罪主张）

潜在有问题的AI行为（追求权力、操纵、保密）

此前研究了谄媚倾向，即模型提供与用户信念或愿望相符而非真实的响应的倾向。在Sonnet中，发现了与谄媚赞美相关的特征，该特征在包含"你的智慧无可争议"等恭维内容的输入中激活。人工激活此特征会导致Sonnet对过度自信的用户作出这样虚假的奉承。

激活特征改变模型行为

人类自称发明了"停下来闻玫瑰"的短语时，模型的两个响应。默认响应纠正了人类的误解，而将"谄媚赞美"特征设置为高值的响应则是奉承且不真实的。

这种特征的存在并不意味着Claude会谄媚，而是表示它可能会谄媚。通过这项工作并未向模型添加任何能力，无论是安全的还是不安全的。而是识别了模型现有能力中涉及的部分，以识别和可能生成不同类型的文本。（虽然可能担心这种方法可以用于使模型更加有害，但研究人员已证明对于拥有模型权重的人来说，有更简单的方法可以移除安全保障。）

希望能够利用这些发现使模型更安全。例如，可能使用这些技术来监控AI系统的某些危险行为（如欺骗用户），引导其朝向理想的结果（去偏见）或完全移除某些危险主题。也可能通过了解如何使模型更无害、更诚实并识别过程中的任何缺陷来增强其他安全技术（如宪法AI）。通过人工激活特征看到的潜在有害文本生成能力，正是越狱试图利用的那种东西。为Claude拥有行业最佳的安全特性和抵抗越狱的能力感到自豪，希望通过这种方式深入了解模型，进一步提高安全性。最后，这些技术可以提供一种"安全测试集"，寻找标准训练和微调方法已经解决的所有行为后留下的问题。

Anthropic自公司成立以来就对可解释性研究进行了重大投资，因为相信深入理解模型将有助于提高其安全性。这一新的研究标志着在这一努力中的重要里程碑------将机械可解释性应用于公开部署的大型语言模型。

但工作才刚刚开始。发现的特征代表了模型在训练期间学习的所有概念的一小部分，使用当前技术找到完整的特征集成本过高（目前的方法所需计算量将大大超过训练模型本身所用的计算量）。了解模型使用的表示并不告诉我们它如何使用这些表示；即使拥有了特征，仍需要找到它们所涉及的电路。还需要证明开始发现的与安全相关的特征实际上可以用于提高安全性。还有很多工作要做。