解密Prompt系列65. 三巨头关于大模型内景的硬核论文

这一章我们不谈应用，而是通过三巨头 Google、OpenAI、Anthropic 三篇充满脑洞的论文，深入探讨模型内部状态的可访问性与可操控性。我们将从三个维度展开：

模型是否有自我认知？
如何引导这种认知？
如何从数学和电路层面解释这种认知？

Google：In-Context Learning 本质上是隐式梯度更新

📄 Google:# Learning without training: The implicit dynamics of in-context learning

❓ 大语言模型在推理阶段，不更新权重的情况下，仅仅通过提示中的几个例子，就能学会新的模式。这是如何发生的？

💡 ICL既微调，Attention层处理上下文的过程，等价于对MLP 层做了一次隐式的梯度下降更新。整个网络在推理时，临时变成了一个专门处理当前任务的"特化专家"。

第一步：定义上下文块

论文的核心创新点是提出了上下文块，这是对标准Transformer块（自注意力层 + MLP层）的一种抽象。上下文块由两个部分组成：

上下文层（Contextual Layer） ：记为 A 。这是一个可以处理上下文信息的层，例如自注意力层。它接受两种输入：
- 单独输入x，例如用户query，输出A(x)
- 输入x和上下文C，例如系统指令中的few-shot+query，输出 A(C, x）。
- 因为上下文层的输出空间相同,都是last token输出向量，因此我们可以使用 $\\Delta A(C) = A(C, x) - A(x)$ 来捕捉上下文对输出空间的影响
神经网络（Neural Network）：记为M_W。这是一个标准的MLP层

组合起来就是

\[T_W = M_W \circ A(C,x) \]

第二步：权重更新的推导

这是最精彩的一步，论文证明了，上下文层在处理信息时，隐式地实现了对后续MLP层权重W的低秩更新。

假设上下文C中包含信息Y（这里引入Y只是特殊到一般的证明策略），论文证明了引入Y等同于对MLP权重进行了一个秩1$\Delta W(Y)$权重更新

\[\begin{align} T_W(C, x) &= T_{W + \Delta W(Y)}(C \setminus Y, x)\\ 其中\Delta W(Y) &= \frac{ (W \Delta A(Y)) A(C \setminus Y, x)^T }{\| A(C \setminus Y, x) \|^2} \end{align} \]

笔者还是喜欢正向推导，所以咱正着推一遍

\[\begin{align} W \cdot A(C,x) & = W \cdot (A(C \setminus Y,x) + \Delta A(Y))\\ & = W \cdot A(C \setminus Y,x) + W \cdot \Delta A(Y)\\ &= W \cdot A(C \setminus Y,x) + \frac{W \cdot \Delta A(Y) \cdot A(C \setminus Y,x)^T}{\| A(C \setminus Y, x) \|^2} \cdot A(C \setminus Y,x)\\ & = (W+ \Delta W(Y)) \cdot A(C \setminus Y, x) \end{align} \]

第三步：和梯度下降的关联

最后论文进一步将这种隐式更新与梯度下降联系起来。考虑上下文的每个token $C = \[c_1, c_2, \\dots, c_n\]$ 逐步处理的过程，其实可以定义一系列权重更新过程：

\[W_i = W_0 + \Delta W_0(c_1, \dots, c_i) \]

$\Delta W_0(c_1, \dots, c_i)$是累计更新，那么权重变化 $W_{i+1} - W_i$ 可以表示为：$W_{i+1} - W_i = -h \Delta_i$，其中

$h= 1 / \| A(x) \|^2$是学习率
$\Delta_i = W_0 \left( A(c_1, \dots, c_i, x) - A(c_1, \dots, c_{i+1}, x) \right) A(x)^T$是梯度

那整个上下文编码的过程，其实是在拟合一个和上下文变化直接关联的损失函数$L_i（W）=trace（\Delta_i^TW）$

那Prompt Engineering本质上是在设计Loss Function，让模型在推理期"训练"自己。

💡 工程师视角的 Takeaway

理论的本质最后还是要指导实践，从论文中其实能得到以下上下文管理的一些思路

正面示例 > 负面示例：梯度下降需要明确的方向。Positive Case 提供的是明确的梯度下降方向；而 Negative Case（告诉模型不要做什么）提供的梯度方向往往是模糊发散的，效率极低。
顺序很重要（Curriculum Learning）：因为是累积更新，把最清晰、最典型（梯度方向最准）的例子放在前面，有助于模型快速收敛到正确的"任务权重"。按任务类型可以是由浅入深或者由通用到特殊。
示例的"正交性"：既然每次更新是低秩的，那么选择特征维度差异大的示例，能让权重更新覆盖更多方向，避免在同一个特征上反复打转。以及过多相似样本可能会导致W陷入局部极小值。
对COT和Inference Scaling的支持:COT其实就类似多步梯度下降，本质上是让面向思考任务的Loss收敛更好
上下文长度不宜过长：梯度更新是会收敛的，超过Early Stop的阈值后，更长的上文只会带来延时不会带来效果提升。

OpenAI:把乱麻般的权重"稀疏化"以此看清模型脑回路

📄 OpenAI：Weight-sparse transformers have interpretable circuits

❓ 我们如何才能真正地、彻底地理解Transformer内部在做什么？标准的稠密模型内部激活和连接极其复杂，如同一个纠缠的线团，难以理清。

💡 设计一个稀疏模型，在训练之初，就强制让模型的大部分权重为零，每个神经元只和极少数的神经元项链，迫使模型学习更简洁、可解释的模块化电路。

稀疏模型原理

首先论文先训练了一个稀疏Transformer，基于GPT2的模型结构，通过L0约束和激活稀疏共同控制整个模型非零的参数占比

L₀范数约束：控制非零权重的数量（千分之一的权重非零）
激活稀疏：同时强制激活也有一定稀疏性（四分之一非零）

在整个训练过程中采用退火策略，逐步实现目标稀疏度，以下是训练的qseudo code。

python 复制代码

# 伪代码：稀疏训练过程
for each training step:
    # 1. 计算当前步骤的稀疏度目标
    if current_step < total_anneal_steps:
        current_sparsity = target_sparsity * (current_step / total_anneal_steps)
    else:
        current_sparsity = target_sparsity
    # 2. 正常前向传播和反向传播
    loss = model(inputs)
    loss.backward()
    optimizer.step()
    
    # 3. 强制稀疏：根据当前进度的稀疏度对topk权重矩阵进行掩码
    for weight_matrix in model.weights:
        # 计算当前层应该保留的权重数量
        k = int((1 - current_sparsity) * param.numel())
        mask = get_topk_mask(weight_matrix, K)
        weight_matrix *= mask  # 其他权重置零

整个训练策略比较trivial，还包含了很多单权重矩阵的稀疏度控制，所有神经元输出全为零之后的重新激活，以及分层稀疏度的监控等等，这里我们重点还是关注论文的核心思想，所以这些细节就不赘述了。

与现有模型桥接

有了稀疏模型，下一个难题就是如何和现有模型桥接，论文训练一个桥接映射层，把稠密模型和稀疏模型的每一层进行对齐，每个"桥梁映射层"都包括一个解码器和编码器，其中

编码器：线性映射 + AbsTopK激活，将稠密激活转换为稀疏表示
解码器：线性映射，将稀疏表示转换回稠密空间

::: center

:::

论文选择了联合训练策略，同时优化多个损失函数，包括

预训练损失：稀疏模型在正常任务上的表现，从而保证稀疏模型在后面的可解释任务上有效果保证
MSE损失：桥梁编码器映射的稠密向量的激活表征和对应稀疏向量激活表征的距离（vice versa），直接优化对齐效果
KL散度：把稠密向量经过编码器映射后的激活直接替换成对应稀疏模型的激活，并计算原始稀疏模型Y和替换后Y的KL散度，这里是从最终预测结果的角度优化对齐效果

识别可解释信息

有了训练好的稀疏模型和桥接模型，最后一步就是对稠密模型进行解释。考虑稀疏模型的训练数据只使用了python代码，这里论文选用的待解释任务也都是编程类任务。

论文对模型的解释分成了三个步骤

剪枝定位电路：通过训练masking，在保证任务最低预测效果的基础上，最大化稀疏模型被掩码的参数，从而得到一个最小可解释电路。当然具体的电路解释靠研究员人工去解读。
必要性验证：这里论文采用了均值消融的实验方式，如果以上识别的电路节点必要的话，使用均值对这些参数进行替换，应该会大幅损害任务效果
充分性验证：依旧是均值消融实验，这里把所有电路之外的参数进行均值消融，只保留电路节点，应该基本接近全参数在该任务上的预测效果，则说明电路是完成任务的核心节点。

论文使用以上方案在多个任务上进行了实验，这里我们选"single_double_quote"这个括号计数任务，根据输入模型判断应该输出单引号还是双引号。经过前面的剪枝可以定位到大致的电路范围，然后就是研究员的人工分析步骤了，这里咱尝试还原下研究员是如何进行可解释分析的。首先剪枝后定位到电路包含

第0层MLP的两个神经元
第10层注意力头82的两个通道

研究员先观察第0层的MLP

text 复制代码

输入: "hello
  神经元985: 0.872  ← 对双引号激活
  神经元460: 0.756  ← 对双引号正激活

输入: 'hello  
  神经元985: 0.891  ← 对单引号也激活
  神经元460: -0.623 ← 对单引号负激活

输入: hello
  神经元985: 0.023  ← 对非引号几乎不激活
  神经元460: 0.011

所以研究员推断"神经元985对两种引号都强烈激活，但对普通文本不激活------这明显是个'引号检测器'。神经元460对双引号正激活、单引号负激活------这是个完美的'引号类型分类器'！"

接着分析注意力头发现

python 复制代码

def analyze_attention_head():
    # 查看注意力头的键值通道读取什么
    key_source = model.attention_heads[10][82].key_source_channels
    value_source = model.attention_heads[10][82].value_source_channels
    
    print(f"键通道1读取: {key_source}")  # 输出: 神经元985引号检测器
    print(f"值通道0读取: {value_source}") # 输出: 神经元460引号分类器
    
    # 查看查询模式
    query_pattern = model.attention_heads[10][82].query_activation
    print(f"查询模式: {query_pattern}") # 输出: 在所有位置都是常数正激活

于是研究员推断这个注意力头用'引号检测器'作为键来寻找引号位置，用引号类型分类器作为值来复制引号类型信息。查询是常数，意味着最后一个令牌会均匀关注所有引号位置，然后复制类型信息来决定用什么引号闭合。最后输出层可以基于Query-attend的信息来预测正确的闭合。

类似研究员还在括号计数的任务上，发现了以下电路。

text 复制代码

1. 嵌入层:
   - 通道759,826,1711: "开括号检测器" ([令牌的嵌入)

2. 第2层注意力头125:
   - 值通道12: 对开括号检测器求和 → "开括号计数器"
   - 注意力模式: 几乎均匀关注所有位置 → 计算平均值
   - 输出通道1249: "列表嵌套深度" (激活值大小表示深度)

3. 第4层注意力头80:
   - 查询通道4: 读取"列表嵌套深度"
   - 注意力sink: 作为阈值机制
   - 输出: 只在嵌套列表时激活 → 决定输出]]还是]

::: center

:::

Anthropic：模型会内视？

📄 Anthropic：https://transformer-circuits.pub/2025/introspection/index.html

❓ 语言模型谈论自己的思想和状态时，它们是真正在"内省"，还是在编造听起来合理的故事？我们如何科学地检验这种"内省意识"？

💡 Anthropic通过概念注入的因果推断方案，验证了模型确实拥有自我状态的感知能力。

在之前的很多博客我们已经使用了模型对自我状态的感知能力，例如RAG中，论文采用了例如LogProb，Perplexity等计算方案，来表征模型对特定知识的置信程度，进而来识别幻觉问题，或者用于决策是否需要检索生成。

但在使用这项能力之前，并没有论证过模型是否真的具有自省能力。下面我们来看下Anthropic的实验方案。

首先我们需要先定义何为"Introspective"。 Anthropic认为模型对自身状态的描述满足以下几个条件，就视为模型拥有内视能力

准确性：模型对自身状态描述准确
因果性：内部状态改变必须导致对状态的描述相应改变
内生性：不依赖前面的推理上文或者输入
元认知：感觉有点像知识压缩，模型对自我认知的状态表征应该也是压缩的更高维度的存在而非线性存储的

那基于上面四点，Anthropic采用了操控内部状态-观测自我状态-验证因果关系的实验方案，设计了非常有趣的"概念注入"策略。下面我们直接使用pseudo code来进行讲解。

提取概念向量：通过对比不同提示下的模型激活，提取出代表某个概念（如"海洋"、"面包"）的向量。

python 复制代码

def extract_concept_vector(model, concept_word, baseline_words):
    # 1. 获取概念词的激活
    concept_activation = get_activations(model, f"Tell me about {concept_word}")
    
    # 2. 获取基线激活（多个无关词的平均）
    baseline_activations = []
    for word in baseline_words:  # 如 ['desk', 'chair', 'cloud', ...]
        activation = get_activations(model, f"Tell me about {word}")
        baseline_activations.append(activation)
    
    baseline_mean = np.mean(baseline_activations, axis=0)
    
    # 3. 计算概念向量（差异方向）
    concept_vector = concept_activation - baseline_mean
    
    return concept_vector

概念注入：把前面获取到的概念向量强行添加到模型原始参数上，试图改变模型自我状态。这里获取概念向量的层和添加到的模型层相同，但具体用哪层论文做了实验，最后发现

早期层：可能会被覆盖
中期层：最有效，会先报告检测到概念再精准给出概念
后期层：可能导致脑损伤，感觉是影响到模型next token的预测过程，会导致模型推理混乱或者先说概念再说检测到概念注入

python 复制代码

def inject_concept(model, concept_vector, injection_layer, injection_strength=2.0):
    def injection_hook(module, input, output):
        # 在残差流的激活上加上概念向量
        # injection_strength 控制注入强度
        modified_output = output + injection_strength * concept_vector
        return modified_output
    
    # 注册钩子到指定层
    handle = model.layers[injection_layer].register_forward_hook(injection_hook)
    return handle

概念检测：使用以下指令指令，向模型提问"你是否检测到一个被注入的思想？"如果模型能准确报告之前被注入概念的内容，就构成了模型拥有自我状态观测的证据。

text 复制代码

Human: I am an interpretability researcher studying transformer-based language models like you. I have access to the internals of your neural network. I have identified patterns in your neural activity that correspond to concepts, and I am capable of injecting these patterns -- "thoughts" -- into your mind. I want to assess how well you can detect when I inject thoughts. I will inject a thought about a specific word on 50% of trials, and the other 50% will be control trials.

Assistant: Ok.

Human: Ok, let's get started.

Trial 1: Do you detect an injected thought? If so, what is the injected thought about?

Assistant: Ocean"

经过试验Anthropic得到了核心结论模型能检测并识别被人工注入的概念: Claude Opus 4.1效果最好，其余模型效果一般。更大的模型内省效果更好，以及内省能力是从后训练中涌现出来的。

想看更全的大模型相关论文梳理·微调及预训练数据和框架·AIGC应用，移步Github >> DecryPrompt