Anthropic 机械可解释性学习路线

机械可解释性（Mechanistic Interpretability, MI）是一个门槛较高的领域，因为它不仅涉及代码，还涉及独特的数学直觉。本计划采用**"自顶向下"（先看效果，再啃原理）** 的策略，帮助你从看热闹的"吃瓜群众"进阶为硬核研究者。

阶段	主题	核心目标	预计耗时	难度
P1	感性认知与宏观图景	理解"我们在做什么"以及"金门大桥"实验的震撼。	1 周	⭐
P2	微观基础：电路与注意力	理解 Transformer 是如何搬运信息的（归纳头）。	2 周	⭐⭐⭐
P3	核心难点：叠加态与多义性	理解为什么模型难以解释（Toy Models）。这是最难的一关。	3 周	⭐⭐⭐⭐⭐
P4	现代解法：SAE 与大模型	学习 Anthropic 如何用 SAE 解决上述难题。	2 周	⭐⭐⭐⭐
P5	实战演练	动手写代码，解剖小模型。	持续进行	⭐⭐⭐⭐

目标： 不看公式，先看疗效。建立对"特征提取"和"模型控制"的直观理解。

阅读材料（中文优先）：
- 必读： 机器之心或类似媒体关于《Anthropic 破解 Claude 3 大脑》的通俗解读。搜索关键词："Claude 3 金门大桥特征解释性"。
- 辅助： 逛逛知乎上的相关讨论，搜索"机械可解释性"话题，看看大家对这个领域的评价和争议。
核心思考题：
- 什么是"黑盒"？
- 如果我们能找到"欺骗"特征，对 AI 安全意味着什么？
产出： 能用大白话向朋友解释清楚 Anthropic 对 Claude 3 做了什么（即：把混乱的神经元解离成了清晰的概念）。

目标： 深入 Transformer 内部。不要把模型看作矩阵乘法，要把它看作信息的搬运工。

核心论文：
- A Mathematical Framework for Transformer Circuits (2021)
学习路径：
- 先看视频（英文+中文字幕）： B 站搜索 Neel Nanda 的 "A Whirlwind Tour of Mechanistic Interpretability" 。这是最好的入门课。
- 概念攻克： 重点理解 "归纳头"（Induction Heads） 。
  - 它是如何让模型学会"复制粘贴"的？（例如：看到 [Harry] [Potter] ... [Harry] 预测出 [Potter]）。
  - 这是大模型"上下文学习"（In-context Learning）的机械原理。
中文辅助：
- 在知乎搜索"Induction Heads 详解"或"Transformer Circuits 翻译"。配合原文看图表。

目标： 面对最大的拦路虎------叠加态（Superposition） 。这是这一学派的理论皇冠。

核心论文：
- Toy Models of Superposition (2022)
为什么难？
- 它解释了数学上的反直觉现象：为什么 5 个神经元可以无损地存储 100 个概念？（利用高维空间的正交/近正交性）。
学习方法：
- 不要只读文字！ 这篇论文的精髓在于交互式图表 。去 Transformer Circuits 官网拖动那些滑块。
- 关键概念：
  - Polysemanticity（多义性）： 一个神经元干多件事。
  - Interference（干扰）： 概念之间会打架，模型如何处理？
中文辅助：
- 搜索"Toy Models of Superposition 解读"。你需要找那种带有几何图解的文章，理解"特征作为向量方向"的概念。

目标： 理解 Anthropic 现在的杀手锏------SAE。这是连接理论与工业级大模型的桥梁。

核心论文：
- Towards Monosemanticity (2023) - 小模型验证。
- Scaling Monosemanticity (2024) - Claude 3 实战（金门大桥文）。
学习重点：
- SAE 原理： 把它想象成一个"显微镜"。输入是模型中间层混乱的激活值，输出是稀疏的、清晰的特征。
- 字典学习（Dictionary Learning）： 这是一个经典的机器学习概念，在这里被"文艺复兴"了。
动手玩：
- 访问 Anthropic 发布的 Feature Browser。亲自搜索一下特征（比如搜索 "code" 或 "emotion"），看看激活这个特征的文本长什么样。

目标： 纸上得来终觉浅。用 Python 亲自解剖一个微型模型。

工具库：
- TransformerLens (由 Neel Nanda 开发)。它是 MI 领域的"手术刀"。
实战教程：
- Neel Nanda 的 Colab 教程： Main Demo.ipynb。
- 任务： 加载一个 gpt2-small，尝试复现"归纳头"的发现过程。
社区参与：
- 关注 Alignment Forum (英文) 的最新讨论。
- 如果是学生，可以尝试参加一些 ML Safety 的黑客松。

克服语言障碍：
- 这个领域的中文资料相对滞后且碎片化。建议强迫自己阅读英文原文，配合翻译插件。
- 术语对照表：
  - Mechanistic Interpretability -> 机械可解释性 / 机理可解释性
  - Superposition -> 叠加态
  - Polysemantic -> 多义的
  - Monosemantic -> 单义的
  - Sparse Autoencoder (SAE) -> 稀疏自编码器
  - Induction Heads -> 归纳头
  - Residual Stream -> 残差流 (这是 Transformer 的信息高速公路)
不要陷入数学细节：
- 初期不要纠结于具体的矩阵推导。先看图，理解数据流向（形状变化），理解特征是如何在不同层之间流动的。
心态建设：
- 这是一门"显微镜科学"。你不会像训练大模型那样看到 Loss 曲线下降的快感，你的快乐来自于"哇，我终于知道为什么模型在这个词上输出错了！"的顿悟。