论文翻译：Explainability for Large Language Models: A Survey

可解释性在大型语言模型中：一项调查
- 摘要
- [1 引言](#1 引言)
- [2 LLMs的训练范式](#2 LLMs的训练范式)
- - [2.1 传统微调范式](#2.1 传统微调范式)
  - [2.2 提示范式](#2.2 提示范式)
- [3 传统微调范式的解释](#3 传统微调范式的解释)
- - [3.1 局部解释](#3.1 局部解释)
  - - [3.1.1 基于特征归因的解释](#3.1.1 基于特征归因的解释)
    - [3.1.2 基于注意力的解释](#3.1.2 基于注意力的解释)
    - [3.1.3 基于示例的解释](#3.1.3 基于示例的解释)
  - [3.2 全局解释](#3.2 全局解释)
  - - [3.2.1 基于探针的解释](#3.2.1 基于探针的解释)
    - [3.2.2 神经元激活解释](#3.2.2 神经元激活解释)
    - [3.2.3 基于概念的解释](#3.2.3 基于概念的解释)
    - [3.2.4 机制性可解释性](#3.2.4 机制性可解释性)
  - [3.3 利用解释](#3.3 利用解释)
  - - [3.3.1 调试模型](#3.3.1 调试模型)
    - [3.3.2 改进模型](#3.3.2 改进模型)
- [4 解释提示范式](#4 解释提示范式)
- - [4.1 基础模型解释](#4.1 基础模型解释)
  - - [4.1.1 解释上下文学习](#4.1.1 解释上下文学习)
    - [4.1.2 解释CoT提示](#4.1.2 解释CoT提示)
    - [4.1.3 表示工程](#4.1.3 表示工程)
  - [4.2 助手模型解释](#4.2 助手模型解释)
  - - [4.2.1 解释微调的作用](#4.2.1 解释微调的作用)
    - [4.2.2 解释幻觉](#4.2.2 解释幻觉)
  - [4.3 利用解释](#4.3 利用解释)
  - - [4.3.1 改进LLMs](#4.3.1 改进LLMs)
    - [4.3.2 下游应用](#4.3.2 下游应用)
- [5 解释评估](#5 解释评估)
- - [5.1 传统微调范式的解释评估](#5.1 传统微调范式的解释评估)
  - [5.2 提示范式中的解释评估](#5.2 提示范式中的解释评估)
- [6 研究挑战](#6 研究挑战)
- - [6.1 缺乏真值解释](#6.1 缺乏真值解释)
  - [6.2 新兴能力的来源](#6.2 新兴能力的来源)
  - [6.3 两种范式的比较](#6.3 两种范式的比较)
  - [6.4 LLMs的捷径学习](#6.4 LLMs的捷径学习)
  - [6.5 注意力冗余](#6.5 注意力冗余)
  - [6.6 从快照可解释性转向时间分析](#6.6 从快照可解释性转向时间分析)
  - [6.7 安全和伦理](#6.7 安全和伦理)
- [7 结论](#7 结论)

可解释性在大型语言模型中：一项调查

摘要

大型语言模型（LLMs）在自然语言处理方面展示了令人印象深刻的能力。然而，它们的内部机制仍然不清晰 ，这种缺乏透明度为下游应用带来了不必要的风险。因此，理解和解释这些模型对于阐明它们的行为、限制和社会影响至关重要。在本文中，我们介绍了一种可解释性技术的分类，并为解释基于Transformer的语言模型提供了一个结构化的概述。我们根据LLMs的训练范式对技术进行分类：传统的基于微调的范式和基于提示的范式。对于每种范式，我们总结了生成单个预测的局部解释和整体模型知识全局解释的目标和主要方法。我们还讨论了评估生成解释的指标，并讨论了如何利用解释来调试模型和提高性能。最后，我们检查了在LLMs时代与常规深度学习模型相比，解释技术的关键挑战和新兴机遇。

1 引言

大型语言模型（LLMs），如BERT（Devlin等人，2019a）、GPT-3（Brown等人，2020）、GPT4（OpenAI，2023b）、LLaMA-2（Touvron等人，2023b）和Claude（AnthropicAI，2023），在广泛的自然语言处理（NLP）任务中展示了令人印象深刻的性能。像微软、谷歌和百度等主要技术公司已在他们的商业产品和服务中部署了LLMs以增强功能。例如，微软利用GPT-3.5来提高新必应的搜索相关性排名（Mehdi，2023）。由于LLMs是众所周知的复杂"黑箱"系统 ，它们的内部工作机制是不透明的，而且高复杂性使得模型解释变得非常具有挑战性。这种模型透明度的缺乏有时会导致有害内容的生成或幻觉（Weidinger等人，2021）。因此，开发可解释性以揭示这些强大模型的工作原理至关重要。

可解释性指的是以人类可理解的术语解释或展示模型行为的能力 （Doshi-Velez和Kim，2017；Du等人，2019a）。提高LLMs的可解释性至关重要，原因有两个。首先，对于普通用户来说，可解释性通过以易于理解的方式阐明模型预测背后的推理机制，建立适当的信任，而无需技术专长。这样，最终用户能够理解LLMs的能力、限制和潜在缺陷。其次，对于研究人员和开发人员来说，解释模型行为提供了洞察力，以识别无意的偏见、风险和性能改进的领域。换句话说，可解释性作为一种调试工具，可以快速推进模型在下游任务上的性能 （Strobelt等人，2018；Bastings等人，2022；Yuksekgonul等人，2023）。它有助于跟踪模型能力随时间的变化，比较不同模型，并为现实世界部署开发可靠、道德和安全的模型。

与传统的深度学习模型相比，LLMs在参数和训练数据的规模上引入了复杂的挑战和激动人心的机遇，用于可解释性研究。首先，随着模型变得更大，由于内部复杂性的增加和训练数据的庞大，理解和解释它们的决策过程变得更加困难。这种复杂性还要求大量的计算资源来生成解释。一方面，传统的实用特征归因技术，如基于梯度的方法（Sundararajan等人，2017）和SHAP值（Lundberg和Lee，2017a），可能需要大量的计算能力来解释具有数十亿参数的LLMs。这使得这些解释技术对于最终用户可以利用的实际应用来说不太实用。另一方面，这种增加的复杂性使得深入分析变得具有挑战性，阻碍了模型的调试和诊断。此外，理解LLMs在上下文学习（Li等人，2023b）和思维链提示（Wu等人，2023a）方面的独特能力，以及幻觉现象，对于解释和改进模型是不可或缺的。其次，这种规模也促进了可解释性技术的创新，并提供了对模型行为更丰富的见解。例如，LLMs可以为其自身的决策过程提供思维链解释 。此外，最近的研究发现LLMs可以作为工具，为其他机器学习模型所做的预测提供事后解释（Kroeger等人，2023）。为了更好地理解和增强LLMs，必须回顾现有的可解释性技术，并发展对潜在未来方向的理解。在本文中，我们提供了一种全面的方法概述，用于解释基于Transformer的语言模型。在第2节中，我们介绍了应用LLMs的两个主要范式：1）传统的下游微调范式和2）提示范式。基于这种分类，我们在第3节中回顾了微调LLMs的可解释性方法，在第4节中回顾了提示LLMs的可解释性方法。在第5节中，我们讨论了可解释性方法的评估。最后，在第6节中，我们进一步讨论了与传统深度学习模型相比，解释LLMs的研究挑战，并提供了潜在未来研究方向的见解。本文旨在全面组织对解释复杂语言模型的最新研究进展。

Feature Attribution Explanation - 特征归因解释
Attention-based Explanation - 基于注意力的解释
Local Explanation - 局部解释
Example-based Explanation - 基于示例的解释
Natural Language Explanation - 自然语言解释
Probing-based Explanation - 基于探针的解释
Traditional Fine-tuning - 传统微调
- Neuron Activation Explanation - 神经元激活解释
Global Explanation - 全局解释
Paradigm (Sec.3) - 范式（第3节）
Concept-based Explanation - 基于概念的解释
Mechanistic Interpretability - 机制性可解释性
Using Explanation - 使用解释
- Debuging Models - 调试模型
- Improving Models - 改进模型
Explaining Incontext Learning - 解释上下文学习
Explaining CoT Prompting - 解释思维链提示
Base Model - 基础模型
Representation Engineering - 表示工程
Explaining Role of Finetuning - 解释微调的作用
LLM - 大型语言模型
Prompting Paradigm (Sec.4) - 提示范式（第4节）
Assistant Model - 助手模型
Explaining Hallucination - 解释幻觉
Explainability - 可解释性
Uncertainty Quantification - 不确定性量化
Using Explanation - 使用解释
- Improving LLMs - 改进LLMs
- Downstream Applications - 下游应用
Evaluating Plausibility - 评估合理性
Finetuning Paradigm - 微调范式
- Evaluating Faithfulness - 评估忠实度
Explanation Evaluation (Sec.5) - 解释评估（第5节）
- Evaluating Plausibility - 评估合理性
- Prompting Paradigm - 提示范式
  - Evaluating Faithfulness - 评估忠实度

图1：我们将LLM可解释性分为两个主要范式。基于这种分类，我们总结了属于这两种范式的LLM的不同种类的可解释性技术。我们还讨论了在这两种范式下生成的解释的评估。

2 LLMs的训练范式

LLMs的训练可以广泛地分为两个范式，即传统的微调和提示，基于它们如何用于适应下游任务。由于两种范式之间存在显著的区别，因此分别提出了各种类型的解释（如图1所示）。

2.1 传统微调范式

在这个范式中，首先在大量未标记的文本数据上预训练一个语言模型，然后在特定下游领域的一组标记数据上进行微调，例如在GLUE基准测试中的SST-2、MNLI和QQP（Wang等人，2019）。在微调期间，很容易在语言模型的最终编码器层之上添加全连接层，允许其适应各种下游任务（Rogers等人，2021）。这个范式已经为中等大小的语言模型显示了成功，通常包含高达十亿个参数。例子包括BERT（Devlin等人，2019a）、RoBERTa（Liu等人，2019）、ELECTRA（Clark等人，2020）、DeBERTa（He等人，2021）等。这个范式的解释集中在两个关键领域：1）理解自监督预训练如何使模型获得对语言的基础理解（例如，语法、语义和上下文关系）；2）分析微调过程如何使这些预训练模型具备有效解决下游任务的能力。

2.2 提示范式

提示范式涉及使用提示，例如带有空白的自然语言句子，供模型填充，以实现零样本或少样本学习，而无需额外的训练数据。在这个范式下的模型可以分为两种类型，基于它们的开发阶段：

基础模型：随着LLMs在大小和训练数据上的扩展，它们展示了令人印象深刻的新能力，而无需额外的训练数据。其中一种能力是通过提示进行少样本学习。这种类型的范式通常适用于大型语言模型（具有数十亿参数），例如GPT-3（Brown等人，2020）、OPT（Zhang等人，2022b）、LLaMA-1（Touvron等人，2023a）、LLaMA-2（Touvron等人，2023b）、Falcon（Almazrouei等人，2023）。这些模型被称为基础模型或基础模型2，它们可以与用户聊天，而无需进一步与人类偏好对齐。大型模型通常适合这个范式，大小超过10亿。例如，LLaMA-2（Touvron等人，2023b）有高达700亿参数。基础模型的解释旨在理解模型如何学习利用其预训练知识来响应提示。

助手模型：基础模型有两个主要限制：1）它们不能遵循用户指令，因为预训练数据中包含的指令-响应示例很少；2）它们倾向于生成有偏见和有害的内容（Carlini等人，2023）。为了解决这些限制，基础模型通过监督微调进一步微调（见图2），以实现人类水平的能力，如开放领域对话。关键思想是通过指令调整和人类反馈的强化学习（RLHF），使模型的响应与人类反馈和偏好保持一致。这个过程最典型的方式是通过（提示，响应）演示对进行指令调整，并通过人类反馈的强化学习。模型使用自然语言反馈进行训练，以执行复杂的多轮对话。属于这一类别的模型包括OpenAI的GPT-3.5和GPT4（Bubeck等人，2023）、Anthropic的Claude（AnthropicAI，2023），以及开源模型，如Meta的LLaMA-2-Chat（Touvron等人，2023b）、Alpaca（Taori等人，2023）和Vicuna（Chiang等人，2023）。这些模型可以称为助手模型、聊天助手或对话模型。这里的解释侧重于理解模型如何从对话中学习开放式的交互行为。

图中的内容描述了大型语言模型（LLMs）的预训练和微调过程。以下是中英文的对应翻译：

Large scale - 大规模
Finetuning - 微调
text corpus dataset - 文本语料库数据集
Random - 随机
Unsupervised - 无监督
Base model - 基础模型
Supervised Fine-tuning - 有监督微调
Assistant model - 助手模型
Initialization - 初始化
pre-training - 预训练
e.g., LLaMA-2 - 例如，LLaMA-2
RLHF - 人类反馈的强化学习（Reinforcement Learning from Human Feedback）
e.g., LLaMA-2-Chat - 例如，LLaMA-2-Chat

图2：LLMs 通过随机初始化进行无监督预训练以创建基础模型。然后，可以通过指令调整和RLHF对基础模型进行微调，以产生助手模型。

3 传统微调范式的解释

在本节中，我们回顾了使用预训练和下游微调范式训练的LLMs的解释技术。首先，我们介绍了提供局部解释 （第3.1节）和全局解释（第3.2节）的方法。在这里，局部解释旨在提供语言模型对特定输入实例进行预测的理解，而全局解释旨在提供LLM总体工作方式的广泛理解。接下来，我们讨论了如何使用解释来调试和改进模型（第3.3节）。

图3：局部解释由四个子领域组成。每个子领域的组织结构以及特定个体解释方法的示例都已给出。

(a) 在第6层，句子A和句子B之间的注意力矩阵的二分图注意力表示（Vig, 2019）；
(b) 通过删除"did"，问题被扰动，对于简化后的问题，答案"Colorado Springs experiments"的置信度甚至增加了，尽管对于人类来说答案是无意义的（Feng等人，2018）；
© 基于变换器的语言模型的Shapley值（Chen等人，2023c）；
(d) 提供输入文本的重要部分的解释，以协助常识推理（Rajani等人，2019）；
(e) 提供输入文本的负面示例，以测试模型在情感预测方面的能力，并且也可以用来提高模型性能（Wu等人，2021）；
(f) 以人类几乎无法察觉的方式改变输入文本，但分类结果却偏离了原始意图（Jin等人，2020）。
Attention Visualization - 注意力可视化
Layer:6 - 层：6
Attention: Sentence A -> Sentence B - 注意力：句子A -> 句子B
Commonsense Reasoning - 常识推理
Question: While eating a hamburger with friends, what are people trying to do? - 问题：和朋友一起吃汉堡时，人们试图做什么？
Choices: have fun, tasty, or indigestion - 选项：享受乐趣、美味或消化不良
Explanation: Usually a hamburger with friends indicates a good time. - 解释：通常和朋友一起吃汉堡意味着享受美好时光。
Sentiment Analysis - 情感分析
Original text: It is great for kids (positive). - 原始文本：这对孩子们有好处（积极）。
Negation examples: It is not great for kids (negative). - 否定示例：这对孩子们没有好处（消极）。
Question Answering - 问题回答
Context: In 1899, John Jacob Astor IV invested $100,000 for Tesla to further develop and produce a new lighting system. Instead, Tesla used the money to fund his Colorado Springs experiments. - 上下文：1899年，约翰·雅各布·阿斯特四世投资了10万美元给特斯拉，以进一步开发和生产新的照明系统。相反，特斯拉用这笔钱资助了他的科罗拉多斯普林斯实验。
Question: What did Tesla spend Astor's money on? - 问题：特斯拉把阿斯特的钱花在了什么上？
Perturbed text: The characters, cast in impossibly engineered circumstances, are fully estranged from reality (Positive) - 扰动后的文本：角色们，被置于不可能设计的情况下，完全脱离现实（积极）。
Confidence: 0.78 -> 0.91 - 置信度：0.78 -> 0.91
Feature Attribution - 特征归因
Perturbation-based - 基于扰动的
Adversarial Example - 对抗性示例
Gradient-based - 基于梯度的
Surrogate model - 替代模型
Decomposition - 分解
Counterfactual - 反事实的

请注意，图中的 "[CLS]" 和 "[SEP]" 是在某些基于Transformer的模型中使用的特殊的序列标记，分别表示序列的开始和结束。在翻译时，通常保留这些标记不变。

3.1 局部解释

第一类解释是指解释LLM生成的预测。让我们考虑一个场景，我们有一个语言模型，我们将特定文本输入到模型中。然后模型产生一个分类输出，如情感分类或下一个标记的预测。在这种情况下，解释的作用是阐明模型生成特定分类或标记预测的过程。由于目标是解释LLM对特定输入进行预测的方式，我们称之为局部解释。这一类包括生成解释的四种主要方法：基于特征归因的解释、基于注意力的解释、基于示例的解释和自然语言解释（见图3）。

3.1.1 基于特征归因的解释

特征归因方法旨在衡量每个输入特征（例如，单词、短语、文本跨度）对模型预测的相关性。给定一个由n个单词特征{x1, x2, ..., xn}组成的输入文本x，微调后的语言模型f生成输出f(x)。归因方法为输入单词特征xi分配一个相关性分数R(xi)，以反映其对模型预测f(x)的贡献。遵循此策略的方法主要可以分为四种类型：基于扰动的方法、基于梯度的方法、替代模型和基于分解的方法。

基于扰动的解释

基于扰动的方法通过扰动输入样本（如移除、掩盖或改变输入特征）并评估模型输出变化来工作。最直接的策略是留一法，它通过在不同层次上移除特征，包括嵌入向量、隐藏单元（Li等人，2017）、单词（Li等人，2016）、标记和跨度（Wu等人，2020b），来衡量特征的重要性。基本思想是移除最少的输入集以改变模型的预测。输入集的选择采用各种指标，如置信度分数或强化学习。然而，这种移除策略假设输入特征是独立的，并忽略了它们之间的相关性。此外，基于置信度分数的方法可能因过度自信模型的病理行为而失败（Feng等人，2018）。例如，即使减少的输入毫无意义，模型也可以保持高置信度的预测。这种过度自信问题可以通过使用常规示例的正则化、标签平滑和微调模型的置信度来缓解（Feng等人，2018）。此外，当前的扰动方法倾向于生成分布之外的数据。这可以通过限制扰动数据保持接近原始数据分布来缓解（Qiu等人，2021）。

基于梯度的解释

基于梯度的归因技术通过分析输出相对于每个输入维度的偏导数来确定每个输入特征的重要性。导数的幅度反映了输出对输入变化的敏感性。原始梯度方法的基本公式描述为[ s_j = \frac{\partial f(x)}{\partial x_j} ]，其中( f(x) )是网络的预测函数，( x_j )表示输入向量。这种方法也经过改进，如梯度×输入（Kindermans等人，2017），并已用于各种解释任务，如计算标记级别的归因分数（Mohebbi等人，2021）。然而，普通的基于梯度的方法有一些主要限制。首先，它们不满足输入不变性，这意味着像常数偏移这样的输入转换可以生成误导性的归因，而不影响模型预测（Kindermans等人，2017）。其次，它们无法处理零值输入。第三，它们受到梯度饱和的影响，大梯度占主导地位，掩盖了较小的梯度。差分参考方法，如集成梯度（IG），被认为是解决这些挑战的好方法，因为它满足了更多归因的公理（Sundararajan等人，2017）。IG及其变体的基本机制是在输入在参考点和实际输入之间插值时累积梯度。基线参考点对可靠评估至关重要，但选择适当基线的标准仍然不清楚。一些使用噪声或训练数据中的合成参考，但性能不能保证（Lundstrom等人，2022）。此外，IG难以捕捉饱和区域的输出变化，应该专注于未饱和区域（Miglani等人，2020）。IG的另一个挑战是实现高质量积分的计算开销。由于IG沿着直线路径积分，这与离散的词嵌入空间不匹配，因此已经开发了变体以适应语言模型（Sikdar等人，2021；Sanyal & Ren，2021；Enguehard，2023）。

替代模型

替代模型方法使用更简单、更易于人类理解的模型来解释黑盒模型的单个预测。这些替代模型包括决策树、线性模型、决策规则和其他更易于人类理解的白盒模型。解释模型需要满足可加性，意味着预测的总影响应该等于每个解释因素的个别影响之和。此外，可解释表示的选择也很重要。与原始特征不同，这些表示应该足够强大以生成解释，但仍然对人类来说易于理解和有意义。一个早期代表性的局部解释方法称为LIME（Ribeiro等人，2016），采用这种范式。为了为特定实例生成解释，替代模型在围绕该实例局部采样的数据上进行训练，以近似原始复杂模型在局部区域的行为。然而，研究表明LIME不满足某些加性归因属性，如局部准确性、一致性和缺失性（Lundberg & Lee，2017b）。SHAP是另一个满足加性归因方法理想属性的框架（Lundberg & Lee，2017b）。它将特征视为合作预测游戏中的参与者，并为每个特征子集分配一个值，反映它们对模型预测的贡献。与为每个实例构建局部解释模型不同，SHAP使用整个数据集计算Shapley值（Shapley等人，1953）。应用SHAP的挑战包括选择合适的方法来移除特征和有效估计Shapley值。特征移除可以通过用基线（如零、均值或来自分布的样本）替换值来完成，但选择正确的基线尚不清楚。估计Shapley值也面临计算复杂性呈指数级增长的特征数量。已经采用了加权线性回归、排列和其他特定于模型的方法（Chen等人，2023c）来估计Shapley值。尽管复杂，但由于其对大型深度模型的表达能力，SHAP仍然流行并广泛使用。为了使SHAP适应基于Transformer的语言模型，已经提出了如TransSHAP等方法（Chen等人，2023c；Kokalj等人，2021）。TransSHAP主要关注将SHAP适应于子词文本输入，并提供顺序可视化解释，非常适合理解LLMs如何进行预测。

基于分解的方法

分解技术的目标是将相关性分数分解为来自输入的线性贡献。一些工作直接从最终输出层向输入分配相关性分数（Du等人，2019b）。另一系列工作从最终输出层向输入逐层归因相关性分数。逐层相关性传播（LRP）（Montavon等人，2019）和泰勒型分解方法（DTD）（Montavon等人，2015）是两类常用的方法。总体思想是将层l+1中神经元j的相关性分数R(l+1)j分解为层l中每个输入神经元i的相关性分数，可以表示为：R(l+1)j = Σi R(l,l+1)i←j。关键区别在于LRP和DTD使用的相关性传播规则。这些方法可以应用于将相关性分数分解为来自模型组件的贡献，如注意力头（Voita等人，2019）、标记和神经元激活（Voita等人，2021）。这两种方法都已应用于推导基于Transformer的模型中输入的相关性分数（Wu & Ong，2021；Chefer等人，2021）。

3.1.2 基于注意力的解释

注意力机制通常被视为一种专注于输入最相关部分的方式。直观上，注意力可能捕捉输入中间状态之间的有意义的相关性，这些相关性可以解释模型的预测。许多现有方法尝试仅基于注意力权重或通过分析注意力中编码的知识来解释模型。这些解释技术可以分为三个主要组：可视化方法、基于函数的方法和基于探针的方法。由于基于探针的技术通常用于学习全局解释，它们在第3.2.1节中讨论。此外，关于注意力权重是否真的适合解释的研究中存在广泛的争论。这个主题将在后面的讨论中涵盖。

图中的内容展示了两种不同的注意力表示方法：二分图和热图，用于显示模型在处理两个句子时的注意力权重分配。以下是中英文的对应翻译：

Layer:4 - 层：4
v|Attention:All - 注意力：全部
V - 垂直线（表示二分图的分隔）
AttentionHeatmap - 注意力热图
$CLS\] - \[分类标记$
$SEP\] - \[分隔符$
the - 这个/那个
rug - 地毯
cat - 猫
on - 在...上面
sat - 坐（sit的过去式）
lay - 躺（lay的过去式）
mat - 垫子

图4：二分图注意力表示和热图用于展示注意力矩阵。

(a) Bipartite Graph - (a) 二分图
(b) Heatmap - (b) 热图

图中的二分图(a)部分使用了线条连接来表示不同句子成分之间的注意力关系，而热图(b)部分则通过颜色的深浅来表示注意力的强度。这种可视化方法有助于理解模型在处理语言时如何分配其注意力资源。

可视化

通过显示注意力模式和统计数据，可视化注意力提供了一种直观的方式来理解模型的工作原理。常见的技术包括使用二分图或热图可视化单个输入的注意力头。这两种方法只是注意力的不同视觉表示形式，一种是图表，另一种是矩阵，如图4所示。可视化系统在显示多个尺度上的关系方面有所不同，它们以不同形式表示不同模型的注意力。在输入数据层面，显示前提句和假设句之间每个单词/标记/句子对的注意力分数，以评估模型预测的忠实度（Vig，2019）。一些系统还允许用户手动修改注意力权重以观察效果（Jaunet等人，2021）。在神经元层面，可以检查个别注意力头以理解模型行为（Park等人，2019；Vig，2019；Hoover等人，2020；Jaunet等人，2021）。在模型层面，可视化跨头部和层的注意力以识别模式（Park等人，2019；Vig，2019；Yeh等人，2023）。一项值得注意的工作集中在可视化注意力流，以追踪注意力的演变，这可以用来理解信息转换并实现模型之间训练阶段的比较（DeRose等人，2020）。因此，注意力可视化提供了一种明确、交互的方式来诊断偏见、错误并评估决策规则。有趣的是，它还有助于提出解释性假设。

基于函数的方法

由于原始注意力不足以完全解释模型预测，一些研究已经开发了增强型变体作为替代品，以识别重要的归因以供解释。梯度是衡量敏感性和显著性的广泛认可的度量，因此它被广泛纳入自定义的归因分数中。这些自定义的归因分数在定义涉及注意力权重的梯度方面有所不同。例如，梯度可以是输出相对于注意力权重的偏导数（Barkan等人，2021），或者是偏导数的集成版本（Hao等人，2021）。梯度和注意力之间的操作也可以不同，如逐元素乘积。总的来说，这些融合了注意力和梯度的归因分数通常比单独使用任何一个表现得更好，因为它们融合了更多有助于突出重要特征并理解网络的信息。

关于注意力的争论

对注意力头进行了广泛的研究评估，但关于这种方法有效性的争论不太可能很快得到解决。这场争论源于几个关键方面。首先，一些工作将基于注意力的解释与其他方法（如LIME）的解释进行比较。他们发现，注意力通常没有识别预测中最重要的特征（Serrano & Smith，2019；Jain & Wallace，2019）。与这些替代方案相比，它们提供的解释较差（Thorne等人，2019），或者不能与其他解释方法相关联（Jain & Wallace，2019；Liu等人，2020；Ethayarajh & Jurafsky，2021）。其次，一些直接批评注意力机制在模型预测中的有用性。他们认为，原始注意力未能捕捉文本中的句法结构，可能并不像通常假设的那样对预测做出贡献（Mohankumar等人，2020）。此外，原始注意力包含冗余信息，降低了其在解释中的可靠性（Bai等人，2021；Brunner等人，2019）。然而，其他研究则反驳了这些说法。例如，评估解释模型的一致性可能会在各种方法中带来挑战，不仅限于注意力（Neely等人，2021）。此外，不重新训练的注意力权重的操纵可能会产生偏见评估（Wiegreffe & Pinter，2019）。此外，BERT中的注意力头已被证明有效地编码了句法（Clark等人，2019）。为了使注意力可解释，还探索了通过优化输入表示（Mohankumar等人，2020）、规范学习目标（Moradi等人，2021）、避免偏见学习（Bai等人，2021）甚至融入人类推理（Arous等人，2021）的技术解决方案。但持续争论的核心原因是缺乏确立的评估标准，这将在第5.1节中进一步讨论。

3.1.3 基于示例的解释

基于示例的解释旨在从个别实例的角度解释模型行为（Koh & Liang, 2017）。与基于模型或基于特征的解释不同，基于示例的解释展示了模型输出如何随着不同输入而变化。我们关注对抗性示例、反事实解释和数据影响。对抗性示例通常是通过操纵输入数据中较不重要的部分合成的。它们揭示了模型失败或出错的案例，暴露了其弱点。相比之下，反事实解释主要是通过改变输入数据的重要部分生成的，它们在算法补救等场景中很受欢迎，因为它们提供了达到理想结果的补救措施。与操纵输入不同，数据影响检查训练数据如何影响模型对测试数据的预测。

对抗性示例

研究表明，神经模型对输入数据的微小变化非常敏感。这些精心制作的修改可以在几乎不被人类察觉的情况下改变模型的决策。对抗性示例在暴露模型失败的领域至关重要，并且通常被添加到训练数据中以提高鲁棒性和准确性。对抗性示例最初是通过单词级别的操作生成的，如错误、删除和插入，这些在检查时很明显。更高级的基于标记的扰动方法如TextFooler（Jin等人，2020）已经发展起来，它根据排名首先策略性地针对重要的单词。然后根据单词嵌入相似度、相同的词性、句子语义相似度和预测变化来选择候选词。然而，与上下文化的表示相比，单词嵌入在句子表示上受到限制，通常导致不连贯的片段。通过专注于上下文化的表示，采用掩码然后填充过程的一系列工作已经取得了最先进的性能（Garg & Ramakrishnan, 2020; Li等人，2021b）。它们利用像BERT这样的预训练掩码语言模型进行包括替换、插入和合并在内的扰动。通常，使用大型语料库来训练掩码语言模型，生成上下文化的表示并获得标记重要性。然后模型被冻结，并按排名顺序对标记执行扰动操作。对于替换，生成的示例替换掩码标记。对于注入，新标记被插入到掩码标记的左侧或右侧。对于合并，一个双字母被掩码并被一个标记替换。SemAttack（Wang等人，2022b）提出了一个更通用且有效框架，适用于包括错别字空间、知识空间和上下文化语义空间在内的各种嵌入空间。输入标记首先被转换到嵌入空间以生成扰动嵌入，然后迭代优化以满足攻击目标。实验表明，即使在白盒设置中有防御措施，替换5%的单词也可以将BERT的准确率从70.6%降低到2.4%。SemAttack的出色攻击性能可能是因为它直接操纵嵌入。

反事实解释

反事实解释是一种常见的因果解释形式，将输入视为Granger因果下预测的原因。给定观察到的输入x和某些特征已更改的扰动xˆ，预测y将变为yˆ。反事实解释揭示了基于某些观察到的输入变化将会发生什么。它们通常被生成以满足特定需求，例如通过选择特定的反事实来实现算法补救。示例可以通过人类生成或释义或单词替换等扰动技术生成。代表性的生成器Polyjuice（Wu等人，2021）支持输入句子的多种排列类型，如删除、否定和洗牌。它还可以根据其重要性来扰乱标记。然后，Polyjuice在特定于下游任务的原始和扰动句子对上微调GPT-2，以提供现实的反事实。与以前依赖众包工作者的方法（Kaushik等人，2020）的2分钟相比，它以每个反事实10秒的中值速度生成更广泛的反事实。反事实解释生成被构建为一个两阶段方法，首先掩码/选择重要标记，然后填充/编辑这些标记（Treviso等人，2023; Ross等人，2021）。具体来说，MiCE在第一阶段使用基于梯度的归因来选择要掩码的标记，并专注于通过二进制搜索优化最小编辑（Ross等人，2021）。相比之下，CREST利用选择性合理化模型的合理性，并放宽了MiCE的严格最小性约束。相反，CREST使用合理化器的稀疏预算来控制接近度（Treviso等人，2023）。实验表明，这两种方法在有效性和流畅性方面都生成了高质量的反事实。

数据影响

这组方法通过测量它们对测试点损失的影响来表征个别训练样本的影响（Yeh等人，2018）。这个概念最初来自统计学，描述了在移除特定数据点后模型参数如何受到影响。通过观察影响模式，我们可以加深对模型如何根据其训练数据进行预测的理解。由于研究人员已经认识到数据的重要性，已经开发了几种方法从数据为中心的角度分析模型。首先，影响函数使我们能够通过测量梯度和Hessian-向量积来近似概念，而无需重新训练模型（Koh & Liang, 2017）。Yeh等人（2018）将测试点的预测分解为训练点的线性组合，正值表示兴奋性训练点，负值表示抑制性点。Data Shapley采用蒙特卡洛和基于梯度的方法来量化数据点对预测器性能的贡献，更高的Shapley值告诉所需的数据类型以改进预测器（Ghorbani & Zou, 2019）。另一种方法使用随机梯度下降（SGD），并通过分析不包含该点的小批量的Hessian向量来推断训练点的影响（Hara等人，2019）。基于这种方法，TracIn在训练过程中使用微积分定理和检查点来推导训练点的影响（Pruthi等人，2020）。然而，上述方法通常即使应用于中等大小的模型也伴随着昂贵的计算成本。为了解决这个问题，可以考虑两个关键维度：1）减少搜索空间和2）减少在Hessian向量中近似的参数数量。Guo等人（2020）还展示了影响函数在模型调试中的适用性。最近，Anthropic采用了特征值校正的Kronecker分解近似曲率（EK-FAC）来扩展这种方法到具有8.1亿、6.4亿、22亿和52亿参数的LLMs。结果表明，随着模型规模的增加，有影响力的序列更好地捕获查询的推理过程，而较小的模型通常提供语义上无关的信息片段（Grosse等人，2023）。

3.2 全局解释

与旨在解释模型单个预测的局部解释不同，全局解释提供了对语言模型内部工作机制的洞察。全局解释的目标是理解各个组成部分（神经元、隐藏层和更大的模块）所编码的内容，并解释各个组成部分学习到的知识/语言属性。我们检视了三种主要的全局解释方法：分析模型表示和参数的探针方法，确定模型对输入反应的神经元激活分析，以及基于概念的方法。

3.2.1 基于探针的解释

自监督预训练过程导致模型从训练数据中获得广泛的语言知识。探针技术是指用来理解像BERT这样的LLMs捕获的知识的方法。

基于分类器的探针 基于分类器的探针的基本思想是在像BERT（Devlin等人，2019b）、T5（Raffel等人，2020）这样的预训练或微调语言模型之上训练一个浅层分类器。为了执行探针，首先冻结预训练模型的参数，模型生成输入单词、短语或句子的表示，并学习注意力权重等参数。这些表示和模型参数被输入到探针分类器中，其任务是识别模型所获得的某些语言属性或推理能力。一旦探针训练完成，它将在保留数据集上进行评估。标记数据来自可用的标注器或黄金注释数据集。尽管每个探针分类器通常针对特定任务定制，但训练分类器以探测不同知识的方法是一致的。我们将根据探测的模型组成部分，即向量表示和模型参数，呈现相关研究。

我们首先检查研究向量表示以测量嵌入知识的工作。在这一类中，知识意味着低层次的语法知识或高层次的语义知识。研究表明，较低层次更能预测单词级的语法，而较高层次更能捕获句子级的语法和语义知识（Belinkov等人，2017；Peters等人，2018；Blevins等人，2018；Jawahar等人，2019）。

句法标签 可以进一步细分为单词级或句子级类别。单词级句法标签提供有关每个单词的信息，例如词性标签、形态学标签、最小短语成分标签等。句子级句法标签描述整个句子的属性，例如语态（主动或被动）、时态（过去、现在、未来）和顶级句法序列。

对于单词级句法探针，通常通过依赖解析器（Dozat & Manning，2017）引入解析树以帮助提取依赖关系（Tenney等人，2019b）。还开发了一种结构探针，通过度量所有单词对之间的句法距离，在特定向量空间中识别解析树（Hewitt & Manning，2019；Chen等人，2021）。这表明句法知识嵌入在向量表示中，并且很受欢迎，用于重建探针任务的依赖树。然而，人们担心探针分类器是否在表示中学习语法或只是任务。一些人认为，只有丰富的句法表示才能使简单分类器表现良好（Lin等人，2019）。Kunz & Kuhlmann（2020）推翻了这些说法，证明其良好表现来自于编码局部邻近单词。研究表明，依赖语义线索的分类器无法提取语法（Maudslay & Cotterell，2021）。相反，其他研究表明，像BERT这样的模型以多种方式编码相应信息（Mohebbi等人，2021；Li等人，2021a）。因此，探测句法信息的有效性仍需要进一步研究。由于句子级句法信息通常分布在每个单词中，因此在没有依赖树检索的情况下，使用探针分类器对它们的预测更简单。局部句法和语义通常一起研究，因为它们调查相同的对象，如神经元、层和上下文表示。差异主要是由于它们的训练目标和训练数据（Tenney等人，2019a）。

学习语义知识的能力通常在诸如指代消解、命名实体识别、关系分类、问题类型分类和支持事实等任务上进行检查（Van Aken等人，2019）。一个突出的框架称为边缘探针（Tenney等人，2019b），已经提出，提供全面的句法和语义探针工具。不同的是，它既采用预训练表示，也采用整数跨度作为输入，并将它们转换为固定长度的跨度表示，这些表示被用来训练探针分类器。由于跨度表示的定义，这种方法变得非常通用，并且广泛应用于句法和语义探针任务。一些工作简单地通过测量代词的转换表示与固定长度内前面单词之间的相似度来探测指代关系，并为更相似的分配更高的概率（Sorodoc等人，2020）。涉及提示的探针工作通常面临零样本和少样本学习的挑战。这些模型的评估更加复杂，因为提示质量也显著影响性能（Zhang等人，2022a）。即使使用精心设计的数据集和提示设计，结果仍需要进一步检查。

对于注意力头的探针分类器，其设计方式类似，即在预训练模型之上训练一个浅层分类器来预测某些特征。除了将注意力头与句法和语义相关联外，还研究了注意力头中的模式。代表性的工作是训练分类器使用在随机输入上采样的自注意力图来识别模式，然后根据这一点修剪头，以提高模型效率（Kovaleva等人，2019；Clark等人，2019）。而不是进行预测，一些工作将注意力视为语义信息指标，并通过层向后追踪它，累积它，并将语义信息分发到输入标记上（Wu等人，2020a）。但问题是，追踪的注意力是否在不同的头中等价地表示语义信息。

尽管高探针性能通常归因于表示的质量和可解释性（Belinkov，2022），但这种假设仍然基本上未被证明且难以验证。在我们能够全面解决这些挑战之前，增加约束如选择性（Hewitt & Liang，2019），这衡量探针与不相关控制任务相比，有选择性地针对感兴趣的语言属性的程度，可能有助于在过渡期间减少潜在的探针偏见。

无参数探针 还有另一分支的数据中心探针技术不需要探针分类器。相反，它们设计针对特定语言属性（如语法）量身定制的数据集（Marvin & Linzen，2018）。编码模型的性能说明了其捕获这些属性的能力。对于语言模型，测量是基于正面例子的概率是否高于负面例子。

也可以使用数据驱动的提示搜索执行探针任务，通过语言模型的文本生成或完成能力来检查某些知识（Petroni等人，2019；Apidianaki & Soler，2021；Li等人，2022）。例如，Ravichander等人（2020）证明了BERT通过零样本设置中完成填空任务（即填充不完整句子中的空白）编码了超类信息。结果表明，BERT在所有样本的前5名中提供正确答案表现良好。然而，正如（Zhong等人，2021）所争论的，训练数据集包括提示方法可以利用的规律来进行预测。语言模型捕获的真实事实知识变得模糊。

3.2.2 神经元激活解释

与检查整个向量空间不同，神经元分析着眼于对模型性能至关重要或与特定语言属性相关的表示中的个体维度，即神经元。一种简单的研究线遵循两个主要步骤：首先，以无监督的方式识别重要神经元。其次，在监督任务中学习语言属性与个体神经元之间的关系。基于学习类似属性的不同模型通常共享相似的神经元这一假设，这些共享的神经元根据相关性度量和学习到的权重等各种指标进行排名（Bau等人，2018；Dalvi等人，2019）。或者，也可以采用传统的监督分类来找到给定模型中的重要神经元（Dalvi等人，2019）。通过消融实验等方法定量验证排名神经元的重要性，例如，掩蔽、擦除、可视化等。其他探针技术如贪婪高斯探针也出现了，用于识别重要神经元（Torroba Hennigen等人，2020）。然而，现有方法难以平衡准确性和选择性（Antverg & Belinkov，2022）。

直观地说，为了进行解释，应该检查所有神经元。然而，由于计算成本高昂，以及只有一小部分神经元对决策很重要的说法（Bau等人，2018；Antverg & Belinkov，2022），现有方法总是与排名算法结合使用。

随着LLMs的泛化能力不断提高，为个体神经元提供解释变得可行。OpenAI最近的一项研究展示了使用GPT-4为GPT-2 XL中的个体神经元激活生成自然语言解释（OpenAI，2023a）。它使用GPT-4总结触发给定GPT-2 XL神经元高激活值的文本模式。例如，GPT-4可以将一个神经元的模式总结为：对电影、角色和娱乐的引用。

每个神经元解释的质量通过测试GPT-4在新文本示例上模拟真实神经元行为的能力来评估。解释根据GPT-4模拟激活与真实激活之间的相关性进行评分（见图5）。高相关性表明了一个准确的解释，捕捉了神经元编码的本质。超过1000个GPT-2 XL神经元被发现具有GPT-4生成的高分解释，这解释了它们的大部分行为。这种自动生成的自然语言为GPT-2 XL中出现的内部计算和特征表示提供了直观的洞察。解释LLMs个体组成部分的一个常见限制是缺乏针对个体组成部分的真值解释注释。没有这些注释，组件级解释的评估仍然具有挑战性。

另一项最近的研究提出了Summarize and Score (SASC)解释流水线，用于生成自然语言解释，以解释大型语言模型中的模块（Singh等人，2023）。首先，SASC使用预训练的语言模型生成候选解释，以找到从模块f中引起最积极反应的n-gram。然后，SASC通过根据解释生成合成数据并测试f对这些数据的反应来评估每个候选解释。作者将SASC应用于解释BERT（bert-base-uncased）中的模块，然后与人工标注的解释进行比较。比较表明，SASC解释有时与人类解释相似。

3.2.3 基于概念的解释

基于概念的可解释性算法将输入映射到一组概念上，并测量每个预定义概念对模型预测的重要性得分。通过引入抽象概念，模型可以以人类可理解的方式进行解释，而不是基于低级特征。潜在空间中的信息也可以转化为可理解的解释。一个代表性的框架名为TCAV（Kim等人，2018），它使用方向导数来量化定义概念对模型预测的贡献。它首先用一组示例表示概念，然后学习一个线性分类器作为"概念激活向量"（CAV），以检测感兴趣的概念。学习到的向量被用作输入在概念方向上的变化，以测量预测对概念的敏感性，即概念的重要性得分。TCAV最初是为计算机视觉提出的，但也已经被调整用于使用IMDB敏感性数据集（Captum）进行情感分类的NLP模型。具体来说，探索了两个概念：积极形容词和中性。积极形容词概念指的是表达积极感情的一组形容词。中性概念涵盖了更广泛的领域，与积极形容词不同。对于带有消极情绪的句子，TCAV得分表明，与中性相比，积极形容词得分相对较低，这与人类理解一致。然而，TCAV需要额外的数据来描述概念，概念分类器的性能很难保证。选择概念的另一种方式是通过使用带注释的数据集进行探针任务来识别神经元学习的概念（Mu & Andreas，2021）。研究表明，神经元产生的解释不仅基于单个概念，还基于逻辑形式的组合。可解释的神经元越多，模型就越准确。基于概念的解释的一个常见陷阱是如何定义有用的概念。此外，它总是受到可用描述性数据集的限制。

3.2.4 机制性可解释性

机制性可解释性通过调查单个神经元及其在电路方面的连接来理解语言模型（Anthropic，2023；Bricken等人，2023）。由于将神经模型的部分视为功能组件的动力，我们单独讨论这一研究线。

电路最初是为了解释直观易懂的视觉模型而提出的，其中复杂对象的检测器可以由线检测器、曲线检测器等简单构建块构建。一种研究流研究神经网络的隐藏表示。这些表示可以用特征可视化。他们相信，复杂的特征检测器可以从早期和更容易的特征检测器中实现。此外，不同的特征也可以分散在许多多义性神经元上，也称为叠加（Olah等人，2020a）。另一种研究流研究连接神经元的权重，旨在找到实现简单逻辑的有意义的算法。他们用电路方法处理网络的子图，表示特征的线性组合以及逻辑运算，这对于建立预测的因果关系至关重要。在电路层面的神经元解释基础上，还探索了更大规模的功能组件。已经确定了三个现象：1）分支专业化，2）权重带，3）等变性。分支专业化描述了分支之间的特征组织，观察到给定类型的特征被分组到一个分支中。这种现象存在于不同层次的层中，相同的分支专业化可能在不同的架构和任务中都很稳健（Voss等人，2021）。权重带通常出现在具有全局平均池化的最终层中的视觉模型中（Petrov等人，2021）。等变性捕捉了神经网络中的对称性，其中许多神经元从基本版本（Olah等人，2020b）转换而来。

当涉及到变换器时，由于它们的架构，电路通常以不同的方式工作和解释。最近对单层和双层仅注意力模型进行了研究。对于单层仅注意力模型，可以从权重中获取二元组和跳过的三元组表。然而，双层仅注意力变换器通过组合来自不同层的注意力头来展示"归纳头"（Elhage等人，2021）。归纳头由两个注意力头组成。第一个注意力头负责将信息从上一个标记复制到下一个标记，而第二个用于根据第一个注意力头的信息推断下一个标记。这种机制被认为是上下文学习（in-context learning）的来源，已经通过多个不太确定的证据进行了演示。例如，在上下文学习和归纳头的共现阶段观察到的相位变化，以及在扰乱或敲除归纳头后相应的上下文学习转变。然而，由于最新语言模型的复杂组件，如多层和多层感知器，这些模型中的"归纳头"理论是否仍然成立还有待观察（Olsson等人，2022）。或者，一些工作集中在包含大部分信息的前馈层上。在变换器中，每个键被视为训练示例中文本模式的记忆。值基于键引起输出分布（Geva等人，2020）。通过追踪GPT中隐藏状态激活的因果效应，并改变在模型预测中决定性的模型权重，一系列中间层被确定为与事实相关（Meng等人，2022）。另一项研究将前馈层转换为子更新向量，这被解释为一小组人类可解释的概念（Geva等人，2022）。然而，与每个部分都具有确定性功能的数字电路不同，大型神经网络在组合上更具弹性和多功能性，例如可以安全地移除整个层（Veit等人，2016；McGrath等人，2023）。此外，大多数现有的假设尚未在大型语言模型上进行测试。最近，Lieberum等人（2023）探索了在70B Chinchilla模型中电路分析的可扩展性。结果表明，激活修补（Meng等人，2022）、注意力模式可视化（Elhage等人，2021）和对数归因可以很好地适应，而不是正确的字母头，将信息从正确的内容标记移动到最终标记（Lieberum等人，2023）。因此，基于电路的解释仍然需要在LLMs上进行进一步研究。

3.3 利用解释

在前面的小节中，我们介绍了为LLMs生成解释的方法。在这个小节中，我们将讨论如何将可解释性用作调试和改进模型的工具。

3.3.1 调试模型

事后解释方法可以用来分析模型特征重要性的模式，以识别其行为中的偏见或局限性（Du等人，2023）。例如，如果模型始终关注输入序列中的某些标记，而不考虑上下文，这可能表明模型依赖于启发式或偏见，而不是真正理解输入序列的含义。最近的研究使用集成梯度来调试在自然语言理解任务中训练的语言模型，发现它们在预测时使用捷径而不是复杂推理（Du等人，2021）。具体来说，这些模型倾向于在长尾分布的头部选择特征，在训练初期就抓住这些捷径线索。这种捷径学习损害了模型的鲁棒性和对分布外样本的泛化能力。集成梯度解释也被用来检查语言模型对对抗性样本的鲁棒性（Chen & Ji，2022）。解释揭示了对抗性样本鲁棒的模型依赖于类似的特性，而非鲁棒模型依赖于不同的关键特征。这些见解激发了开发更鲁棒的对抗性训练方法。

3.3.2 改进模型

正则化技术可以用来提高模型解释的性能和可靠性。具体来说，解释正则化（ER）方法旨在通过使模型的机制推理（它关注的标记）与人类推理对齐，来提高LLM的泛化能力（Joshi等人，2022）。例如，提出了一个名为AMPLIFY的框架，它使用事后解释方法生成自动化推理（Ma等人，2023）。这些自动化推理被作为提示的一部分输入LLM进行预测。实验表明，AMPLIFY通过10-25%的准确率提高了LLMs在各种任务上的表现，即使在缺乏人类推理的情况下也是如此。另一项研究提出了ER-TEST（Joshi等人，2022），这是一个框架，它从三个维度评估ER模型的分布外（OOD）泛化：未见过的数据集测试、对比集测试和功能测试。这比仅仅在分布内性能上提供了更全面的评估。他们考虑了三种类型的可解释性方法，包括Input*Gradient、基于注意力的推理（Stacey等人，2022）和学习推理（Chan等人，2022a）。在情感分析和自然语言推理任务/数据集上，ER-TEST显示ER对分布内性能影响很小，但在OOD上获得了巨大的收益。提出了一个名为XMD的端到端框架，用于基于解释的调试和改进（Lee等人，2022）。XMD允许用户通过直观的界面对任务或实例级解释提供灵活的反馈。然后，它通过正则化更新模型，使其与用户反馈对齐的解释。使用XMD已被证明可以提高模型在文本分类上的OOD性能高达18%。

4 解释提示范式

随着语言模型的扩展，基于提示的模型展现出需要新视角来阐明其底层机制的新兴能力。然而，模型规模的急剧增加使得传统解释方法不再适用。将针对传统微调范式的某些可解释性技术应用于提示范式时所面临的挑战可以从多个方面总结。例如，基于提示的模型依赖于推理能力（Wei等人，2023b），这使得局部化或特定于示例的解释意义大减。此外，在数百亿甚至更多参数的规模上，计算要求高的技术很快变得不可行。进一步来说，基于提示的模型复杂的内部工作和推理过程过于复杂，无法被简化的替代模型有效捕获。

鉴于这些挑战，针对这种提示范式的新解释技术正在出现。例如，思维链（CoT）解释可能为理解和解释基于提示的大型语言模型的行为提供了一种更合适的方法。此外，专注于识别对预测有贡献的影响性示例的方法正在变得越来越重要。识别这些关键数据点可能显著增强我们对数据集组成的理解。传统微调范式的全局解释技术也被广泛用于基于提示的LLMs。特别是这些能够提供高层次解释的技术，如基于概念的解释和基于模块的解释。

在本节中，我们首先介绍用于解释属于提示范式的模型的技术，包括1）解释基础模型，如LLaMA-2（第4.1节），2）解释助手模型，如LLaMA-2-Chat（第4.2节），以及3）如何利用LLMs的推理和解释能力来提高语言模型的预测性能并实现有益的应用（第4.3节）。

4.1 基础模型解释

随着语言模型规模的增加，它们展现出新的能力，如少样本学习，即仅通过几个示例就能学习概念的能力。它们还展示了思维链（CoT）提示范式，这允许将一系列提示输入模型以引导其朝特定方向生成并解释其推理（Wei等人，2022）。鉴于这些新出现的属性，可解释性研究有三个主要目标：1）理解这些大型语言模型如何能够快速从有限示例中掌握新任务，这有助于最终用户解释模型的推理，2）解释CoT提示，3）以及表示工程。

4.1.1 解释上下文学习

可解释人工智能技术已被用来阐明LLMs中提示的工作方式。具体来说，我们讨论了揭示上下文学习（ICL）如何影响模型行为的技术。

一项研究使用SST-2情感分析基准作为基线任务来解释上下文学习范式（Li等人，2023b）。它通过分析对比性演示和显著性图来研究ICL在LLMs中的工作方式。作者通过翻转标签、扰乱输入文本和添加补充解释来构建对比性演示。对于情感分析任务，他们发现翻转标签更有可能降低小型模型（例如，GPT-2）的显著性，而对大型模型（例如，InstructGPT）产生相反的影响。不同演示类型的影响似乎根据模型规模和任务类型而有所不同。需要在一系列模型、任务和数据集上进行进一步分析。另一项研究调查了大型语言模型中的ICL是否由其预训练中的语义先验启用，或者是否从提供的示例中学习输入标签映射（Wei等人，2023b）。实验结果表明，大型模型可以覆盖语义先验并学习矛盾的输入-标签映射，而小型模型则更多地依赖于先验。在ICL示例中使用翻转标签的实验表明，大型模型可以学会翻转预测，而小型模型则不能。这些结果表明，LLMs具有更大的能力来学习任意的输入-标签映射，这是一种不受语义先验限制的象征性推理，这挑战了ICL仅由利用先验驱动的观点。

4.1.2 解释CoT提示

一项研究通过分析输入标记的显著性得分来调查思维链（CoT）提示如何影响LLMs的行为（Wu等人，2023a）。显著性得分表明每个输入标记对模型输出的影响力。这些分数是使用基于梯度的特征归因方法计算的。目标是理解CoT提示是否与标准提示相比改变了显著性得分，从而提供对CoT提高性能原因的见解。显著性得分的分析表明，CoT提示使模型以更稳定的方式考虑问题标记。这种对输入的更稳定考虑可能比标准提示更能一致地生成准确答案。其他工作专注于在少样本提示中扰乱CoT演示，例如，通过添加错误，以确定生成高性能解释的重要方面（Madaan & Yazdanbakhsh，2022；Wang等人，2022a）。提出了反事实提示来扰乱提示的关键组成部分：符号、模式和文本（Madaan & Yazdanbakhsh，2022）。实验分析表明，中间推理步骤更作为模型将符号复制到事实答案的信标，而不是促进学习解决任务。

4.1.3 表示工程

与前述从提示工程角度解释LLMs的两条研究线不同，这一系列的研究从表示工程的角度解释LLMs。表示工程从自上而下的视角解释模型，并将表示及其转换视为分析的主要元素。这种方法专注于结构和表示空间的特征，以捕获新兴的表示和高级认知现象。Zou等人（2023）在两个部分实现了表示工程：1）表示阅读，2）表示控制。

表示阅读在网络内识别高级概念和功能的表现。受到神经影像学方法的启发，采用了线性人工断层扫描。为了更好地引出概念和功能，分别设计了包括刺激或指令的提示模板。对于概念，可以从最具代表性的标记的表现或最后一个标记中收集神经活动。对于功能，可以从某个标记后的响应中收集神经活动。然后，引入线性探针来预测概念和功能与神经活动。表示控制的目标是基于表示阅读的理解，操纵概念和功能的内心表示，以满足安全要求。直接添加阅读向量可以诱导模型输出诚实的模型输出，减去阅读向量可以使模型撒谎，这在改进模型方面展示了巨大的潜力。同样，在高质量的真/假陈述数据集上研究表示结构也揭示了表示的线性结构。训练好的探针在其他数据集上泛化得很好。

正如前述研究的结论，可以识别出真实方向并用来诱导真或假的输出（Marks & Tegmark，2023）。通过分析六个空间或时间数据集的学到的表示，证明了像LLaMA-13B这样的LLMs学习了空间和时间的线性表示。此外，在不同大小的模型中也发现了类似的模式。随着模型规模的扩大，表示也越来越准确。模型还有专门的神经元，它们作为空间或时间的函数被激活，这与LLMs中事实知识的建立相一致（Gurnee & Tegmark，2023）。总之，表示工程可能是控制模型输出的有希望的技术，但还需要进一步的消融研究来确定其优势和劣势。

4.2 助手模型解释

由于大规模无监督预训练和有监督对齐微调，属于这一范式的LLMs具有强大的推理能力。然而，它们庞大的规模也使它们容易产生诸如幻觉之类的问题输出。可解释性研究旨在1）阐明对齐微调的作用，2）分析幻觉的原因，3）不确定性量化。

4.2.1 解释微调的作用

助手模型通常分为两个阶段进行训练。首先，它们在大量原始文本上进行无监督预训练，以学习通用的语言表示。这个预训练阶段允许模型获得通用的语言知识。其次，模型通过有监督和强化学习进行对齐微调。这使模型与特定终端任务和用户偏好对齐。对这些模型的可解释性研究集中在确定它们的知识主要来自初始预训练阶段，即它们获得通用语言能力的地方，还是来自随后的对齐微调阶段，即它们被定制为特定任务和偏好的地方。了解模型知识的来源为如何改进和解释它们的性能提供了见解。

周等人（2023）最近的一项研究调查了预训练与指令微调对语言模型的相对重要性。在实验中，作者只使用了1000个精心挑选的指令来微调LLaMA-65B模型，没有使用强化学习，并实现了与GPT-4相当的性能。研究人员假设对齐可能是一个更简单的过程，模型学习交互风格和格式，而LLMs的几乎所有知识都是在预训练期间获得的。实验结果展示了预训练的力量及其相对于大规模微调和强化学习方法的重要性。复杂的微调和强化学习技术可能没有以前认为的那么关键。另一方面，这项研究还表明，在指令微调中，数据质量比数据量更重要。此外，Wu等人（2023c）通过检查指令遵循和概念层面知识演变的角色，研究了指令微调的作用。结果表明，经过指令微调的模型可以更好地区分指令和上下文，并很好地遵循用户的指令。此外，与预训练模型相比，它们可以更多地关注输入提示的中间和尾部。经过微调的模型明确地将概念调整为面向下游用户的任务，但语言分布保持不变。与普遍认为更高层捕获更多语义知识的观点相反，在经过微调的模型中，捕获的语义知识的比例最初增长，然后急剧下降。从自注意力头激活的角度来看，发现指令微调通过使更多低层级的神经元编码词-词模式，使预训练模型适应于识别指令动词（Wu等人，2023c）。

另一项最近的研究（Gudibande等人，2023）表明，模仿可以成功地改善语言模型的风格、个性和遵循指令的能力，但并不能改善语言模型在事实性、编码和问题解决等更复杂维度上的表现。模仿是训练助手模型的另一种常用技术，其中像GPT-2或LLaMA这样的基础模型在更高级系统（如专有模型ChatGPT）生成的输出上进行微调。此外，LLaMA-2的技术报告（Touvron等人，2023b）表明，微调阶段主要有助于提高语言模型的有用性和安全性，其中有用性描述了LLaMA-2-Chat响应满足用户请求并包含预期信息的程度，安全性指避免不安全响应，如有毒内容。

综合这些研究，强调了基础模型的重要作用，突出了预训练的重要性。研究结果表明，助手模型的知识主要是在预训练阶段捕获的。随后的指令微调然后帮助激活这些知识，以产生对最终用户有用的输出。此外，强化学习可以进一步使模型与人类价值观对齐。

4.2.2 解释幻觉

LLMs的快速发展引发了人们对其可信度的担忧，因为它们有可能表现出不良行为，例如生成幻觉，这是一种模型以自然的方式生成不相关和无意义的输出的现象（Zhang等人，2023；Huang等人，2023）。社区对于理解幻觉是如何产生的以及如何减少幻觉生成的兴趣日益增加。

最近的分析研究表明，幻觉现象源于数据集中的各种问题（Dziri等人，2022），可以分为两类：1）缺乏相关数据，2）重复数据。例如，长尾知识在训练数据中普遍存在，LLMs很容易在学习这类知识时不足（Kandpal等人，2023）。另一方面，完全除去重复数据是一个挑战。训练数据集中的重复数据可能会显著损害模型的性能。Hernandez等人（2022）发现，仅通过重复10%的训练数据，800M参数模型的性能可能会降低到400M参数模型的水平。在检查模型在规模法则方面的性能时，中间一定范围的重复频率可能会产生不利影响。这个范围被假设为导致模型记忆数据，从而消耗其大部分容量。

此外，最近的研究发现幻觉也源于模型固有的某些限制。McKenna等人（2023）证明LLMs仍然依赖于句子级别的记忆和语料库级别的统计模式，而不是稳健的推理。这通过他们对各种LLM家族在自然语言推理任务上的表现分析得到了证实。进一步地，Wu等人（2023b）揭示了LLMs在记忆和关于本体知识方面的推理方面的不完美。Berglund等人（2023）指出，由于逆转的诅咒，LLMs通常在逻辑推理方面遭受困扰。LLMs倾向于对自己的输出过于自信，并且难以准确识别实际知识边界（Ren等人，2023）。此外，LLM倾向于偏爱共现词而不是实际答案，这种现象通常被称为捷径或虚假相关性（Kang & Choi，2023）。同样，另一种不良行为------谄媚也存在于LLMs中，这指的是模型可能会生成符合用户观点而非事实的答案。最糟糕的是，模型的扩展和指令微调可能会增加这种行为（Wei等人，2023a）。

解决幻觉问题有几种方法。首先，扩展总是一个好步骤。拥有5400亿参数的PaLM在各种任务上的性能急剧提高。即使它也遭受学习长尾知识的困扰，但它的记忆能力被证明比小型模型更好（Chowdhery等人，2022）。在文本摘要任务中，Ladhak等人（2023）表明，使用更多的提取式微调数据集和适配器微调通常会产生更少的幻觉，但不会改变幻觉的分布。因此，可以通过数据端（如改进微调数据集和添加合成数据干预（Wei等人，2023a））或模型端（如不同的优化方法）来实施缓解措施。

4.2.3 不确定性量化

研究界对量化LLM预测的不确定性也越来越感兴趣，以更好地理解这些强大模型的可靠性和局限性。

大多数现有的关于不确定性量化的文献都集中在对数似然上，然而这对于LLMs来说不太适合，特别是对于封闭源的模型。这就要求采用非对数似然的方法来引出LLMs的不确定性，称为置信度引出（Xiong等人，2023）。有几种代表性的方法用于LLMs的不确定性估计。首先，基于一致性的不确定性估计涉及对一个问题生成多个响应，并使用这些响应之间的一致性来估计模型的置信度（Xiong等人，2023）。具体来说，它在答案生成过程中引入随机性（自我一致性）或在提示中添加误导性的提示（诱导一致性）以产生不同的响应。多个响应越一致，对答案的估计置信度就越高。其次，LLMs可以通过口头提供置信度，通过提供直接和具体的响应来表示对其预测的高度置信，并给出间接、模糊或不明确的响应来传达较低的置信度。LLMs可以明确地说明一个百分比来量化它们的置信水平。例如，"我对这个答案只有20%的把握"清楚地传达了低置信度（Xiong等人，2023）。第三，不确定性可以从标记级别的不确定性（Duan等人，2023）中聚合而来。LLMs通过预测每个标记来生成文本，这可以被构建为一个分类任务。标记级别的不确定性方法根据其概率分布为每个预测的标记计算置信度分数。然后可以根据标记级别不确定性的聚合来估计整体不确定性。

4.3 利用解释

在这一部分，我们讨论利用基于提示的LLMs的解释能力来提高语言模型的预测性能并实现有益应用的技术。

4.3.1 改进LLMs

这项研究调查了LLMs在从有限示例中学习新任务时是否能够从解释中受益。具体来说，它调查了为少数镜头任务的答案提供解释是否能够提高模型在这些任务上的表现（Lampinen等人，2022）。提供了两种形式的解释：答案前的解释和答案后的解释。Wei等人（2022）提出了一种称为思维链提示的方法，它在提示中的答案前提供中间推理步骤作为解释。这帮助语言模型在算术、符号和常识推理任务中取得了最先进的结果。另一项最近的研究在提示中的答案后提供解释（Lampinen等人，2022）。实验分析表明，提供解释可以提高大型语言模型在少数镜头学习性能，但好处取决于模型规模和解释质量。此外，使用验证集专门为任务定制解释可以进一步增加它们的好处（Lampinen等人，2022）。

另一项最近的研究提出了解释调整，这是一种使用更高级模型的详细逐步解释作为监督来训练较小语言模型的方法（Mukherjee等人，2023）。第4.2.1节表明，模仿调整主要允许较小的模型学习较大模型的风格，而不是推理过程。为了解决这个限制，这项工作提出了利用超越仅输入-输出对的更丰富信号来教导较小的模型模仿像GPT-4这样的大型基础模型的推理过程。具体来说，作者收集了由GPT-4组成的提示和详细解释性响应的训练数据。为了让GPT-4生成解释，使用了系统指令，例如"你是一个乐于助人的助手，总是提供解释。想象你在回答一个五岁孩子的问题。"实验结果表明，使用解释调整训练的模型在BigBench Hard等复杂的零镜头推理基准测试中优于使用传统指令调整训练的模型。

从解释中捕获的见解也可以用来压缩指令（Yin等人，2023）。作者使用消融分析来研究任务定义中不同类别内容的贡献。然后，可以从消融分析中获得的见解用来压缩任务指令。以分类任务为例，分析表明任务指令中最重要的组成部分是与标签相关的信息。去除其他内容只会略微影响分类性能，作者发现只有在去除输出标签信息时模型性能才会大幅下降。此外，他们提出了一种算法，通过去除不必要的标记自动压缩定义，发现在保持或提高T5-XL模型在保留数据集上的性能的同时，可以移除60%。

此外，一些研究还深入研究了由LLMs生成的解释在增强少数镜头上下文学习中的有效性。对于涉及代码执行和算术运算的多步符号推理任务，Nye等人（2021）发现纳入中间计算步骤可以显著提高模型的能力。另一方面，当涉及到包括问答和自然语言推理在内的文本推理任务时，只有text-davinci-002观察到准确性的提高。其他四个模型，包括OPT、GPT-3(davinci)、InstructGPT(text-davinci-001)和text-davinci-002，没有显示出明显的改进，甚至表现得更差。LLMs生成的解释从两个维度进行评估：事实性和一致性。结果显示，LLMs可以生成不切实际的解释，但仍然与预测一致，这反过来会导致错误的预测（Ye & Durrett，2022）。在发现的基础上，提出了一个解释优化框架来选择导致高性能的解释（Ye & Durrett，2023）。因此，提高模型预测的准确性需要LLMs生成可靠的解释，这仍然是目前的一个巨大挑战。

4.3.2 下游应用

可解释性也可以应用于教育、金融和医疗等现实世界问题。例如，可解释的零镜头医学诊断是一个有趣的用例。一项最近的研究提出了一个框架，用于使用像CLIP这样的视觉-语言模型以及像ChatGPT这样的LLMs进行可解释的零镜头医学图像分类（Liu等人，2023a）。关键思想是利用ChatGPT自动生成疾病症状和视觉特征的详细文本描述，而不仅仅是疾病名称。这些额外的文本信息有助于从CLIP（Radford等人，2021）提供更准确和可解释的诊断。为了处理ChatGPT在医学主题上的潜在不准确性，作者设计了提示，以获得每个疾病类别的视觉可识别症状的高质量文本描述。在多个医学图像数据集上的广泛实验证明了这种无需训练的诊断流程的有效性和可解释性。

5 解释评估

在前面的部分中，我们介绍了不同的解释技术及其用途，但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两个家族：传统微调范式的局部解释评估（第5.1节）和提示范式的自然语言CoT解释评估（第5.2节）。评估的两个关键维度是对人类的合理性和捕捉LLMs内部逻辑的忠实度。

从技术上讲，评估解释涉及人类或自动化模型方法。人类评估通过模型理由与人类理由的相似性或主观判断来评估合理性。然而，这些方法通常忽略了忠实度。主观判断可能也与模型推理不一致，使这种评估不可靠。正如Jacovi和Goldberg（2020）所争论的，忠实评估应该有明确的目标，并避免人类参与。自动化评估通过扰乱模型理由来测试重要性，避免人类偏见。因此，开发严格的自动化指标对于公平的忠实度评估至关重要，这将在忠实度评估维度下涵盖。

5.1 传统微调范式的解释评估

我们从两个方面介绍局部解释的评估：合理性和忠实度。两部分将主要涵盖可以应用于比较各种解释方法的通用属性和指标。我们专注于定量评估属性和指标，这些指标通常比定性评估更可靠。

评估合理性

局部解释的合理性通常在输入文本或标记级别进行测量。合理性评估可以分为五个维度：语法、语义、知识、推理和计算（Shen等人，2022）。这些维度描述了被掩盖输入与人工注释理由之间的关系。不同的评估维度需要不同类型的数据集。例如，句子"The country [MASK] was established on July 4, 1776."具有人工注释的理由"established on July 4, 1776"，掩蔽处的答案应该是"the United States"，来源于事实/知识。尽管理由可能在不同的粒度级别，如标记或片段和维度，评估程序除了多样化的指标外都是相同的。

人工注释的理由通常来自基准数据集，这些数据集应该满足几个标准：1）充分性，意味着理由足够让人们做出正确的预测；2）紧凑性要求如果理由中的任何部分被移除，预测将会改变（Mathew等人，2021）。然后解释模型负责预测重要标记并使用这些标记生成理由。上述两种理由将用各种指标进行测量。流行的指标可以根据其测量范围分为两类。测量两个标记级别理由的指标包括交集-并集（IOU）、精确度和召回率。测量整体合理性的指标包括离散情况的F1分数和连续或软标记选择情况下的精确度召回率曲线下面积（AUPRC）（DeYoung等人，2020）。

评估忠实度

评估原则和指标提供了一种统一的方式来定量测量忠实度。由于它们通常针对特定的解释技术定义，我们将只涵盖一些通用但普遍的原则和从数据角度的指标。

为了保持忠实度，解释方法应该遵循几个模型层面的原则，包括实现不变性、输入不变性、输入敏感性、完整性、极性一致性、预测一致性和充分性。实现不变性也称为模型敏感性，意味着无论模型架构有何不同，只要网络功能相等，归因分数就应该保持不变（Sundararajan等人，2017）。即使是基于梯度的方法通常也能很好地满足这个指标；假设可能没有根据。输入不变性要求归因方法反映预测模型对有效输入变化的敏感性。例如，归因分数在输入恒定偏移上应该保持不变（Kindermans等人，2017）。

输入敏感性定义了归因分数对于仅能解释预测差异的特征应该非零（Sundararajan等人，2017）。完整性结合了敏感性和实现不变性，并与微积分中的路径积分相结合（Sundararajan等人，2017），这只适用于可微方法。极性一致性指出，一些排名靠前的特征可能对最终预测施加抑制效应，这会对解释产生负面影响，并应避免，但大多数情况下并非如此（Liu等人，2022）。

预测一致性规定，具有相同解释的实例应该有相同的预测。并且充分性要求，即使具有不同的解释，具有相同归因的数据应该有相同的相关标签（Dasgupta等人，2022）。在这类药物中，研究人员旨在通过为解释方法制定公理和属性来防止某些类型的矛盾解释。然而，每个指标只能解决忠实度问题的特定方面。在单个框架内提供全面的解决方案极其困难。此外，这些方法仅通过为解释方法设计属性来关注避免解释模型的不一致行为。模型的总体性能以下指标进行测量。

一个突出的模型无关的工作通过定量验证预测与模型理由之间的关系来衡量忠实度。在测试集上计算的一些常见指标如下：

完整性（COMP）：在移除排名靠前的重要标记前后原始预测类别的概率变化，这意味着理由的影响力。它被制定为完整性 = m(xi)j - m(xi\ri)j。更高的分数表明理由/标记的重要性（DeYoung等人，2020）。
充分性（SUFF）：在提取的理由部分可以让模型进行预测的程度，被定义为充分性 = m(xi)j - m(ri)j（DeYoung等人，2020）。
决策翻转 - 标记分数（DFFOT）：触发决策翻转移除的标记平均分数（Chrysostomou & Aletras，2021）。
决策翻转 - 最有信息量的标记（DFMIT）：通过移除最有影响力的标记引起的决策翻转率（Chrysostomou & Aletras，2021）。

在ERASER（DeYoung等人，2020）中，相关标记被分类成按重要性分数排名的组，以便可以按排名顺序掩蔽标记并逐渐观察输出变化。输出变化与掩蔽标记的重要性之间的相关性表示模型正确归因特征重要性的能力。正如TaSc（Chrysostomou & Aletras，2021）所声称的，更高的DFMIT和更低的DFFOT是首选的，因为重要标记被准确识别，模型更忠实。相反，一些工作通过解释的弱点如捷径学习和特征重要性的极性来衡量忠实度。Bastings等人（2022）通过模型识别学习的捷径的程度来量化忠实度。在这种情况下，像precision@k（前k个标记中的捷径百分比）和平均排名（在显著性排名中搜索的平均深度）这样的指标表明前特征如何很好地代表所有真实世界的捷径。同样，更高的precision@k和更低的平均排名表明模型的忠实度良好。Liu等人（2022）通过执行违规测试来检查忠实度，以确保模型正确反映特征重要性和特征极性。

在评估解释模型时，无论使用的具体指标如何，始终存在两个关键问题：1）模型量化重要特征的程度如何？2）模型能否有效地并正确地从排名靠前的特征中提取尽可能多的影响特征？然而，现有的评估指标通常与同一解释模型不一致。例如，DFFOT排名最佳的解释在SUFF上可能是最差的（Chan等人，2022b）。TaSc证明，基于注意力的重要性指标比非注意力的更稳健，尽管将注意力作为解释仍然存在争议（Jain & Wallace，2019）。

此外，这些评估指标不能直接应用于自然语言解释，因为这类解释很少与输入有直接的关系。Atanasova等人（2023）为自然语言解释模型提出了两个忠实度测试。一个测试是反事实测试，通过在原始示例中插入改变预测的标记来构建反事实示例。如果解释中没有插入标记中的单词，则认为解释方法是不忠实的。另一个测试是输入重建测试，它探索解释是否足以做出与原始示例相同的预测。每个示例的解释被转换为一个新的输入，考虑到原始输入和解释本身。不幸的是，因为这两个测试都可以引入新的语言变体，当生成新的短语时，它们在公平评估忠实度方面存在困难。或者，Rev（Chen等人，2023b）从信息的角度提供评估指标，检查自然语言解释是否支持模型预测，以及解释中的新信息是否证明模型预测的合理性。

5.2 提示范式中的解释评估

最近，像GPT-3和GPT-4这样的大型语言模型（LLMs）展现出了生成自然语言解释以说明其预测的令人印象深刻的能力。然而，这些解释是否真的帮助人类理解模型的推理过程，以及它们能否推广到新的输入，仍然不清楚。注意，评估这类解释（例如，思维链理由）的目标和视角与评估第5.1节中介绍的传统解释不同（Golovneva等人，2022；Prasad等人，2023）。已经开发了合理性、忠实度和稳定性（也称为多样性）等指标来评估解释。与传统解释一样，我们专注于评估合理性和忠实度。

评估合理性

最近的一项研究探讨了解释是否满足人类的期望，并提出评估自然语言解释的反事实模拟性（Chen等人，2023d）。也就是说，一个解释是否帮助人类推断AI模型在多样化的反事实输入上的行为。他们实施了两个指标：模拟泛化性（解释帮助模拟的反事实的多样性）和模拟精确度（人类猜测与模型输出匹配的模拟反事实的比例）。他们发现，像GPT-3.5和GPT-4这样的LLMs产生的解释精确度低，表明它们误导人类形成错误的心智模型。该论文揭示了当前方法的局限性，以及优化人类偏好如合理性可能不足以提高反事实模拟性。

评估忠实度

这一研究线研究了解释的忠实度，即检查解释在多大程度上反映了模型预测背后的实际原因。例如，最近一项研究的实验分析表明，思维链解释可能会系统地不忠实（Turpin等人，2023）。作者通过在少数镜头提示中重新排列多项选择选项，使答案总是"(A)"，从而在模型输入中引入偏差。然而，像GPT-3.5和Claude 1.0这样的语言模型未能在其解释中承认这些有偏见的特征的影响。模型生成的解释没有忠实地表示真正的决策过程。另一项工作也表明，LLMs陈述的思维链推理在某些任务上可能不忠实，与更大、更能干的模型相比，较小的模型倾向于生成更忠实的解释（Lanham等人，2023）。这些研究凸显了对来自LLMs的解释忠实度的担忧，即使它们看起来是合理的。为了提高思维链上的推理忠实度，一项初步研究提出通过将问题分解为子问题并分别回答它们来生成模型推理（Radhakrishnan等人，2023）。分析表明，分解方法可以在几个指标上提高忠实度，同时接近思维链的性能。需要更多的未来研究来开发方法，使模型解释更好地反映预测背后的原因。

6 研究挑战

在本节中，我们探讨了需要来自自然语言处理（NLP）和可解释人工智能社区进一步研究的关键研究挑战。

6.1 缺乏真值解释

对于大型语言模型（LLMs），通常无法获得真值解释。例如，目前没有基准数据集来评估LLMs捕获的各个组件的全局解释。这带来了两个主要挑战。首先，设计准确反映LLMs决策过程的解释算法是困难的。其次，缺乏真值使得评估解释的忠实度和保真度变得复杂。在缺乏真值指导的情况下，选择合适的解释方法也是一个挑战。潜在的解决方案包括涉及人类评估和创建合成解释数据集。

6.2 新兴能力的来源

随着模型规模和训练数据的增加，LLMs表现出令人惊讶的新能力，即使没有明确训练执行这些任务。阐明这些新兴能力来源仍然是一个开放的研究挑战，尤其是对于像ChatGPT和Claude这样的专有模型，它们的架构和训练数据是未公开的。即使是开源的LLMs，如LLaMA，目前对其新兴技能的解释性也有限。这可以从模型和数据两个角度进行研究。

模型视角

进一步研究基于Transformer的模型对于揭示LLMs的内部工作至关重要。关键的未解决问题包括：1）哪些特定的模型架构赋予了LLMs令人印象深刻的新兴能力？2）在多样化的语言任务中实现强性能所需的最小模型复杂性和规模是什么？继续严格分析和实验基础模型是必要的，因为LLMs的规模在迅速增加。在这些领域推进知识将使LLMs更加可控和可靠。这可以提供线索，说明是否会在不久的将来出现新的新兴能力。

数据视角

除了模型架构外，训练数据是理解LLMs新兴能力的另一个重要视角。一些代表性的研究问题包括：1）哪些特定的大量训练数据子集负责特定的模型预测，是否可能找到这些示例？2）新兴能力是模型训练的结果还是数据污染问题的产物（Blevins等人，2023）？3）对于有效的预训练和微调LLMs，训练数据的质量或数量哪个更重要？理解训练数据特征与模型产生的结果行为之间的相互作用将为大型语言模型中新兴能力来源提供关键见解。

6.3 两种范式的比较

对于给定任务，如自然语言推理（NLI），下游微调范式和提示范式在分布内和分布外（OOD）性能上有显著差异。这表明两种方法依赖于不同的推理进行预测。然而，微调和提示范式之间的解释全面比较仍然缺乏。需要进一步研究以更好地阐明这些范式之间的解释差异。一些有趣的未解决问题包括：1）在分布内示例上，经过微调的模型和经过提示的模型在用于预测的理由上有何不同？2）微调和提示在OOD鲁棒性上的分歧是什么导致的？我们可以将其追溯到推理的差异吗？推进这一理解将有助于为特定用例选择合适的范式，并提高跨范式的鲁棒性。

6.4 LLMs的捷径学习

最近的可解释性研究表明，语言模型在进行预测时经常走捷径。对于下游微调范式，研究表明语言模型利用各种数据集的人工制品和偏见进行自然语言推理任务，如词汇偏见、重叠偏见、位置偏见和风格偏见（Du等人，2023）。这显著影响了分布外泛化性能。对于提示范式，一项最近的分析了语言模型如何使用更长的上下文（Liu等人，2023b）。结果表明，当相关信息位于上下文的开头或结尾时，性能最高，当模型需要在长上下文的中间访问相关信息时，性能会下降。这些分析表明，两种范式在某些场景中都倾向于利用捷径，突显了需要进一步研究以解决这个问题并提高泛化能力。

6.5 注意力冗余

最近的研究使用可解释性技术调查了大型语言模型中的传统微调和提示范式中的注意力冗余（Bian等人，2021；Bansal等人，2022）。

例如，Bian等人使用BERT-base分析了不同预训练和微调阶段的注意力冗余（Bian等人，2021）。实验分析表明存在注意力冗余，发现许多注意力头是冗余的，可以修剪它们而对下游任务性能影响很小。同样，Bansal等人使用OPT-66B在上下文学习场景中调查了注意力冗余（Bansal等人，2022）。他们发现注意力头和前馈网络都存在冗余。他们的发现表明，许多注意力头和其他组件是冗余的。这为开发模型压缩技术提供了机会，可以在保持下游任务性能的同时修剪冗余模块。

6.6 从快照可解释性转向时间分析

还有一种观点认为，当前的可解释性研究忽视了训练动态。现有的研究主要是对完全训练后的模型进行事后解释。缺乏对训练过程中发展性的调查可能会产生有偏见的解释，因为它未能针对模型能力出现或遗留部分所依赖的相变。此外，对某些特征进行干预未能反映特征之间的相互作用（Saphra，2022）。因此，出现了一种趋势，即从静态的快照可解释性分析转向动态的时间分析。通过检查训练过程中的几个检查点，Chen等人（2023a）确定了一个突然的预训练窗口，在此期间模型获得了句法注意结构（SAS），这发生在一个专门的注意头专注于一个词的句法邻居时，与此同时训练损失急剧下降。他们还表明，SAS对学习过程中获得语法能力至关重要。受到这种视角的启发，发展分析可以揭示训练过程中更多因果关系和训练模式，这有助于理解和提高模型性能。

6.7 安全和伦理

LLMs的可解释性缺失在它们变得更加强大时带来了重大的伦理风险。没有可解释性，分析或限制错误信息、偏见和社会操纵等问题的潜在危害就变得具有挑战性。可解释的人工智能技术对于审计这些强大的模型并确保其与人类价值观一致至关重要。例如，追踪训练数据归因或可视化注意模式的工具可以揭示内嵌的偏见，如性别刻板印象（Li等人，2023a）。此外，探针分类器可以识别模型学习到的表示中是否编码了有问题的关联。部署LLMs的研究人员、公司和政府有伦理责任优先考虑可解释的人工智能。如严格的模型审计、外部监督委员会和透明度法规等倡议可以帮助降低风险，因为LLMs变得更加普遍。例如，随着对齐系统的规模不断扩大，人类反馈在管理它们方面变得越来越无力，为这些系统的安全性带来了巨大挑战。正如Martin（2023）所声称的，将可解释性工具作为审计过程的一部分来补充人类反馈可能是一种富有成效的方法。在扩大模型规模和性能的同时，推进可解释性技术的发展必须保持优先，以确保越来越强大的LLMs的安全和伦理发展。

7 结论

在本文中，我们提供了对LLMs可解释性技术的全面概述。我们总结了基于模型训练范式的局部和全局解释方法。我们还讨论了使用解释来改进模型、评估和关键挑战。主要的未来发展方向包括为不同的LLMs开发定制的解释方法、评估解释的忠实度和提高人类的可解释性。随着LLMs的不断发展，可解释性将成为确保这些模型透明、公平和有益的关键。我们希望这项调查为这一新兴研究领域提供了有用的组织，同时突出了未来工作所面临的开放问题。