【大语言模型】是什么在驱动表示层操控？——关于操控模型拒绝机制的案例研究

【大语言模型】是什么在驱动表示层操控？------关于操控模型拒绝机制的案例研究

[【大语言模型】是什么在驱动表示层操控？------关于操控模型拒绝机制的案例研究](#【大语言模型】是什么在驱动表示层操控？——关于操控模型拒绝机制的案例研究)
- 目录
- [📌 文章信息](#📌 文章信息)
- [📄 摘要信息](#📄 摘要信息)
- [1. 🔍 研究背景](#1. 🔍 研究背景)
- [2. ❗问题与挑战](#2. ❗问题与挑战)
- [3. ⚙️ 算法模型](#3. ⚙️ 算法模型)
- - [3.1 多Token激活修补框架 (Multi-Token Activation Patching)](#3.1 多Token激活修补框架 (Multi-Token Activation Patching))
  - [3.2 操控值向量分解 (Steering Value Vector Decomposition)](#3.2 操控值向量分解 (Steering Value Vector Decomposition))
  - [3.3 基于梯度的操控向量稀疏化 (Gradient-based Sparsification)](#3.3 基于梯度的操控向量稀疏化 (Gradient-based Sparsification))
  - [3.4 电路发现 (Circuit Discovery)](#3.4 电路发现 (Circuit Discovery))
- [4. 💡 创新点](#4. 💡 创新点)
- [5. 📊 实验效果（重要数据与结论）](#5. 📊 实验效果（重要数据与结论）)
- [6. 📈 推荐阅读指数](#6. 📈 推荐阅读指数)
- - 推荐指数
  - 推荐理由
- [7. 总结与展望](#7. 总结与展望)
- 后记

项目	内容
arXiv ID	2604.08524v1
作者	Stephen Cheng, Sarah Wiegreffe, Dinesh Manocha
发布日期	2026-04-09
搜索日期	2026-04-12
arXiv 链接	https://arxiv.org/abs/2604.08524v1

📌 文章信息

原始标题: What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal
中文翻译: 是什么在驱动表示层操控？------关于操控模型拒绝机制的案例研究

📄 摘要信息

将操控向量（Steering Vectors）应用于大语言模型（LLMs）是一种高效且有效的模型对齐技术，但我们对其工作原理缺乏可解释的理解------具体来说，操控向量影响了哪些内部机制，以及这如何导致不同的模型输出。为了探究操控向量有效性背后的因果机制，我们对"拒绝"（refusal）这一概念进行了全面的案例研究。我们提出了一个多token激活修补（multi-token activation patching）框架，并发现当应用于同一层时，不同的操控方法利用了功能上可互换的电路（functionally interchangeable circuits）。这些电路揭示了操控向量主要通过OV（输出-值）电路与注意力机制交互，而很大程度上忽略了QK（查询-键）电路------在操控过程中冻结所有注意力分数，在两个模型家族中仅导致约8.75%的性能下降。对操控后OV电路的数学分解进一步揭示了语义上可解释的概念，即使在操控向量本身不可解释的情况下也是如此。利用激活修补的结果，我们证明操控向量可以被稀疏化高达90-99%，同时保留大部分性能，并且不同的操控方法在一小部分重要的维度上达成一致。

1. 🔍 研究背景

随着大语言模型（LLMs）能力的不断增强，确保其行为符合人类意图（即模型对齐）成为安全部署的关键。传统的对齐方法如微调（fine-tuning）成本高昂，而提示工程（prompting）的鲁棒性有限。因此，表示层操控（Representation Steering），特别是激活添加（Activation Addition）技术，作为一种轻量级、可在推理时干预的替代方案兴起。该方法通过向模型的隐藏状态添加一个预计算的"操控向量"，来引导模型产生期望的行为，例如减少幻觉、控制风格或增强推理能力。

其中，操控模型"拒绝"回答有害问题的能力是一个重要的研究案例。先前工作（如Arditi et al., 2024）已发现，拒绝行为可由模型表示空间中的一个单一方向（a single direction）所介导。通过添加或减去这个"拒绝方向"，可以有效地强制模型拒绝无害问题（避免"越狱"）或顺从有害问题（实现"越狱"）。尽管这种技术效果显著且应用广泛，其内部工作机制仍是一个"黑箱"：操控向量究竟如何与模型内部的注意力机制、前馈网络（MLP）等组件交互，从而最终改变输出行为？这种理解上的缺失阻碍了该技术的可靠性评估、失效案例分析以及进一步优化。本文正是为了填补这一空白，通过对拒绝操控的深入机理分析，揭示其背后的因果机制。

2. ❗问题与挑战

论文针对当前表示层操控研究领域，提出了以下几个核心问题与挑战：

因果机制的缺失（Lack of Mechanistic Understanding） ：

尽管操控向量在实践中被证明有效，但学界对其如何改变模型行为的底层计算机制知之甚少。操控向量是主要通过影响注意力权重（QK电路），还是通过改变注意力中的值（OV电路）来发挥作用？它是否激活了模型中的特定子网络（circuits）？回答这些问题对于建立对该技术的信任至关重要。
操控方法的普适性与差异性（Generality vs. Specificity of Steering Methods） ：

存在多种获取操控向量的方法，从简单的"均值差分"（Difference-in-Means, DIM）到基于学习的"下一Token预测"（NTP）和"偏好优化"（PO）。一个关键问题是：这些方法虽然计算方式不同，但它们驱动模型行为改变的内在机制是否相同？如果不同，哪种更优？如果相同，则表明存在一个普适的、功能性的核心机制。
模型组件贡献度的模糊性（Ambiguity of Component Contributions） ：

在Transformer架构中，操控向量被注入残差流后，会传播到后续所有的注意力头和MLP。然而，并非所有组件都对最终行为改变同等重要。识别出哪些组件（例如，特定层的注意力头、MLP）是操控效果的关键"因果桥梁"，是理解其工作原理的核心挑战。
可解释性与稀疏性的不足（Lack of Interpretability and Sparsity） ：

操控向量本身是高维的、稠密的向量，通常难以直接解释。例如，一个"拒绝向量"的各个维度具体代表什么语义信息是不明确的。此外，这种稠密表示可能包含大量冗余信息。是否存在一个低维的、稀疏的子空间，其中包含了操控效果的大部分"信号"？能否利用这种稀疏性来设计更高效的操控方法？
分析方法从单Token到多Token生成的扩展（Scaling Analysis from Single-token to Multi-token Generation） ：

传统的机制可解释性方法（如激活修补）大多设计用于单Token预测任务（如"间接宾语识别"）。而操控向量影响的是模型的多Token生成过程。如何将现有的因果分析工具适配到这种更复杂、自回归的生成场景，是方法论上的一个挑战。

3. ⚙️ 算法模型

为应对上述挑战，论文提出并整合了一套分析框架，其核心是多Token激活修补（Multi-Token Activation Patching） 框架及相关的数学分解和稀疏化方法。

3.1 多Token激活修补框架 (Multi-Token Activation Patching)

这是论文方法论的核心，旨在将经典的激活修补技术从单Token任务扩展到多Token的操控生成任务。

核心思想 ：将操控后的模型行为 视为"干净"状态（H_clean），将未操控的模型行为 视为"污染"状态（H_corrupt）。通过将"干净"状态下的特定边（edge）或节点（node）的激活值，修补到"污染"状态的前向传播中，观察模型输出向"干净"行为偏移的程度，从而量化该组件对操控效果的因果贡献。
数学基础 ：使用基于积分梯度的边属性修补 (Edge Attribution Patching with Integrated Gradients, EAP-IG) 来高效地近似每个计算边的间接影响（Indirect Effect, IE）。公式 (4) 是核心：
$(u - u^{\*})^{\\top}\\frac{1}{T}\\left(\\sum_{i = 1}\^{T}\\frac{\\partial m(H_{base}\^{\\ell} + \\frac{i}{T}\\alpha\\cdot S)}{\\partial v}\\right)$
其中，u和v分别是上游和下游节点的激活值，u*是未操控状态的值，α是操控强度，S是操控向量矩阵，m是重要性度量（如logit差值）。通过对梯度进行线性插值积分，该方法能公平地将影响归因于路径上的每个组件。
处理多Token生成 ：通过教师强制（Teacher Forcing） 方式，逐个处理生成的Token。对于每个Token位置，计算其IE，然后对所有Token位置的IE求和，得到一个边的总重要性分数。
数据集构建：创建了四类对比性强的提示-响应对，包括：有害提示（操控→顺从，未操控→拒绝）和无害提示（操控→拒绝，未操控→顺从）。这些对确保了修补分析能聚焦于概念翻转（即拒绝/顺从状态的改变）的关键时刻。

3.2 操控值向量分解 (Steering Value Vector Decomposition)

为了解析操控向量如何影响注意力机制，论文推导了操控信号在注意力模块中的传播公式，并引入了操控值向量 (Steering Value Vector, SVV) 的概念。

数学推导 ：通过将添加了操控向量的隐藏状态Hℓ+ α·S输入注意力模块，并进行公式展开，最终得到公式 (5)：
$\\mathrm{Attention}(H\^{\\ell} + \\alpha \\cdot S) = \\sum_{h}A^{h}D_{c}\\tilde{H}^{\\ell}W_{OV}\^{h} + D_{c^{h}}\\mathrm{svv}^{h}(S)$
第一项是注意力对原始输入的常规处理，而第二项D_{ch}svv^h(S)是操控向量的直接、输入无关的贡献。
定义：svv^h(s) = (s ⊙ γ)W_OV^h，其中s是操控向量，γ是RMSNorm的权重，W_OV^h是注意力头h的输出-值权重矩阵的乘积。SVV本质上代表了操控向量s在经过该注意力头的OV电路后，被直接注入到残差流中的"值向量"。
意义：SVV提供了一种强大的可解释性工具。即使原始的操控向量s在高维空间中不可解释，但其投影到特定注意力头输出空间得到的SVV，通过Logit Lens（即直接与词汇表矩阵点积）却能显示出清晰的、与拒绝或有害内容相关的语义Token。

3.3 基于梯度的操控向量稀疏化 (Gradient-based Sparsification)

基于EAP-IG框架，论文提出了一种方法来识别操控向量中最重要的维度。

核心思想 ：对于操控被注入的起始节点u'，其IE的逐元素版本（公式6）本质上衡量了s中每个维度对最终行为改变的平均边际贡献。这个贡献可以归一化，得到一个比率r = IE / s，该比率反映了每个维度的"效率"。
稀疏化方法 ：设定一个阈值τ，将s中所有|r| < τ的维度置零。这种方法与简单的按幅值裁剪或随机丢弃不同，它直接依据每个维度对最终因果效应的贡献大小进行筛选，因此更加精准。

3.4 电路发现 (Circuit Discovery)

通过上述EAP-IG计算出的每条边的重要性分数，使用贪婪搜索算法（Mueller et al., 2025）来构建一个子图C，即"电路"。这个电路包含了因果上最关键的边，足以复现大部分的操控行为。通过保真度 (Faithfulness) 指标来衡量该电路复现完整模型行为的能力。

4. 💡 创新点

本文的主要创新点可以归纳为以下几点：

方法论创新：多Token激活修补框架：首次将经典的因果机制分析（激活修补）成功地、系统性地应用于研究影响多Token生成的操控向量。这为未来分析其他复杂的、序列级的干预行为（如解码策略、分类器引导等）提供了一个通用的、强大的工具。
核心发现：操控主要作用于OV电路，而非QK电路：通过精妙的冻结实验（Ablation），论文令人信服地证明了拒绝操控向量几乎不改变模型的注意力模式（QK电路）。其效果主要来源于通过OV电路直接向残差流中添加"语义值"（即SVV）。这一发现从根本上修正了我们对操控机制的理解，指向了更高效、更直接的干预方式。
理论贡献：操控值向量（SVV）的提出与应用：SVV不仅是一个数学上的分解，更是一个强大的可解释性工具。它揭示了操控信号如何在注意力头的输出空间中表征为具体的语义概念（如"I'm sorry"、"illegal"等），即使原始操控向量本身是黑箱。这为"表示空间中的方向对应可解释语义"这一假设提供了直接的、细粒度的证据。
实践洞察：操控电路的功能互换性与高稀疏性：
- 互换性：发现不同方法（DIM, NTP, PO）得到的操控向量，虽然向量本身余弦相似度不高，但它们激活的因果电路却有高达90%以上的重叠，且功能上可以互换。这表明存在一个与具体训练方法无关的、模型固有的"拒绝操控核心通路"。
- 稀疏性：发现操控向量可以被稀疏化90-99%，且性能损失很小。更重要的是，不同方法稀疏化后保留的非零维度有显著的统计重叠（高IoU）。这表明存在一个低维的、共享的"操控子空间"，为设计轻量级、可解释的稀疏操控向量铺平了道路。

5. 📊 实验效果（重要数据与结论）

论文在Gemma 2 2B Instruct和Llama 3.2 3B Instruct两个模型上进行了详尽的实验，主要结论和数据如下：

电路保真度与规模：
- 仅需全模型约10% (Gemma 2) 和 11% (Llama 3) 的计算边（edges），即可恢复85% 以上的操控效果（保真度≥0.85）。这说明操控效果高度集中在模型的特定子网络中。
QK电路与OV电路的重要性对比：
- 冻结QK电路 （即保持注意力权重不变），平均性能仅下降8.75%。
- 冻结OV电路 或移除SVV ，性能分别下降71.75% 和53.75%。
- 结论：操控向量主要通过影响OV电路（特别是通过SVV的直接注入）来发挥作用，而对QK电路的影响微乎其微。
SVV的可解释性：
- 原始NTP向量在Gemma 2上通过Logit Lens显示的最高概率Token是"{"（无意义）。
- 而其L16H1注意力头的SVV显示的Top Token是""forbidden""、""illegal""等高度相关的语义词。
- 同样，Llama 3的原始DIM向量不可解释，但其多个SVV的Top Token包含了""unsafe""、""apologize""等。
- 结论：SVV分解成功地从看似随机的操控向量中提取出了语义上可解释的、与任务高度相关的概念。
稀疏化效果：
- 在Gemma 2 2B上，使用梯度/IE-based稀疏化，可在保持90%以上性能的同时，达到**~90%** 的稀疏度。
- 在Llama 3.2 3B上更为惊人，可在保持几乎相同性能的同时，达到**~95%** 甚至99% (仅剩9个非零维度)的稀疏度。
- 结论：操控向量存在极高的信息冗余，其核心"信号"蕴藏在一个非常低维的子空间中。不同方法得到的操控向量在该子空间上有显著重叠（IoU远高于随机，p值<1e-10）。

6. 📈 推荐阅读指数

7. 总结与展望

总结：

本论文通过对"拒绝"操控的深入案例研究，系统性地揭示了表示层操控在大语言模型中的因果机制。研究证实，不同方法得到的操控向量在功能上是等效的，它们主要激活了模型中一小部分共享的、高度局部的因果电路。最关键的是，论文颠覆了人们对操控可能通过影响注意力权重（QK）生效的普遍预期，通过严谨的实验证明，操控效果主要源于操控向量通过注意力OV电路，以"操控值向量（SVV）"的形式直接向残差流注入语义信息。基于这一洞见，论文成功实现了高达99%的操控向量稀疏化，并发现不同操控方法在核心维度上高度一致。这项工作不仅加深了我们对LLM内部计算的理解，也为开发更高效、更可控的模型干预技术提供了坚实的理论和实践基础。

未来展望：

扩展到更多概念和模型：本文的结论主要在"拒绝"这一概念上得到验证。未来工作亟需验证这些发现（如OV主导性、高稀疏性）是否普遍适用于其他操控概念，如"风格"、"真实性"、"情感"等，以及是否适用于更大规模或不同架构（如MoE）的模型。
深入分析MLP的作用：论文发现MLP在操控电路中也占有相当比例（~20-30%），但本文的分析重点在注意力机制。MLP具体如何与操控向量交互，是未来一个非常有价值的研究方向。是利用了MLP中的特定"知识神经元"，还是通过其他方式？
利用稀疏性进行自适应和细粒度操控：发现共享的低维子空间后，可以研究是否可以在该子空间上进行更精细的操作，例如，通过调整子空间中不同维度的系数，实现对"拒绝程度"的连续、独立控制，或者组合不同概念（如"拒绝"+"礼貌"）的操控。
应用于模型防御和鲁棒性提升：既然知道了操控主要依赖OV电路，是否可以设计针对性的防御机制？例如，在推理时对OV电路的输出进行随机扰动或降噪，以抵抗恶意的操控向量攻击（越狱）。反之，也可以利用SVV的可解释性来监控模型是否正在被不当操控。
连接更广泛的表示工程理论：本文的发现为"表示空间中存在有意义的方向"这一假设提供了强有力的微观证据。未来的工作可以将SVV与稀疏自编码器（SAEs）发现的特征进行对比，探究它们之间的关系，从而构建更统一的LLM内部可解释性理论。

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞, 关注和评论) !!!
本博客将持续为您带来计算机人工智能前沿技术研究进展分享，助您更快了解 AI前沿技术。

【大语言模型】 是什么在驱动表示层操控？——关于操控模型拒绝机制的案例研究