2024.2 ACM Explainability for Large Language Models: A Survey

Explainability for Large Language Models: A Survey | ACM Transactions on Intelligent Systems and Technology

问题

可解释性问题：大语言模型（LLMs）内部机制不透明，难以理解其决策过程，如在自然语言处理任务中，不清楚模型如何根据输入生成特定的预测结果。
模型评估问题 ：缺乏有效的评估指标和方法来衡量解释的质量，包括解释的合理性和忠实性，难以确定解释是否准确反映了模型的推理过程。
模型训练问题：在传统微调范式中，不清楚预训练和微调过程如何使模型具备解决下游任务的能力；在提示范式中，不了解模型如何通过提示进行学习和推理，以及如何减少模型在训练过程中的捷径学习行为。
模型应用问题：在实际应用中，如医疗、金融等领域，如何确保模型的解释能够被用户理解和信任，以及如何利用解释提高模型在这些领域的性能和可靠性。

挑战

缺乏真实解释：LLMs 的全局解释缺乏基准数据集和真实解释，导致难以设计准确的解释算法，评估解释的忠实性和可靠性，以及在多种解释方法中选择合适的解释。

【这是数据集的缺陷】

新兴能力来源不明：随着模型规模和训练数据的增加，LLMs 展现出的新兴能力（如少样本学习、思维链提示等）的来源难以解释，特别是对于专有模型，其架构和训练数据未公开，增加了研究难度。
两种范式对比困难：下游微调范式和提示范式在分布内和分布外性能上存在差异，表明其推理方式不同，但目前缺乏对这两种范式解释的全面比较，难以理解它们在预测时的推理差异及其对模型性能的影响。
捷径学习问题 ：LLMs 在两种训练范式下都倾向于利用捷径进行预测，影响了模型的泛化能力，尤其是在处理分布外数据时，需要深入研究如何解决这一问题，提高模型的泛化性能。
注意力冗余现象：研究发现 LLMs 在不同阶段（如预训练和微调）以及不同场景（如上下文学习）中存在注意力冗余，这为模型压缩提供了机会，但同时也需要深入理解其对模型性能的影响。
训练动态研究不足：当前的解释性研究主要集中在对训练完成后的模型进行事后解释，缺乏对训练过程的动态分析，容易导致解释偏差，无法准确捕捉模型的新兴能力和训练依赖的关键部分。
安全与伦理风险：LLMs 的不可解释性带来了安全和伦理问题，如可能产生错误信息、偏见和社会操纵等，难以对这些风险进行分析和约束，确保模型与人类价值观一致。

创新点

系统性分类 ：首次对大语言模型的解释性技术进行了全面、系统的分类，涵盖了传统微调范式和提示范式下的各种解释方法，为后续研究提供了清晰的框架。
多维度评估 ：提出了针对解释的多维度评估指标，包括合理性和忠实性评估，不仅关注解释在语法、语义等方面的合理性，还从模型原理层面探讨了解释的忠实性，为更准确地评估解释质量提供了依据。
结合新兴能力 ：在提示范式的解释中，紧密结合了 LLMs 的新兴能力，如上下文学习、思维链提示等，从这些独特能力的角度探索解释方法，为理解和解释 LLMs 的复杂行为提供了新的视角。
强调应用价值 ：突出了可解释性在模型调试、改进以及下游应用（如医疗、教育等领域）中的作用，展示了可解释性研究在实际应用中的潜力，推动了该领域从理论研究向实际应用的发展。

贡献

全面综述：对 LLMs 的解释性技术进行了全面综述，总结了不同训练范式下的解释方法，包括局部解释、全局解释及其具体技术，如特征归因、注意力机制、探测技术等，为研究人员提供了该领域的整体视图。
方法整合：整合了利用解释来调试和改进模型的方法，如通过解释发现模型的偏差和局限性，进而利用正则化技术提高模型性能，为模型开发人员提供了实践指导。
评估体系构建 ：构建了对解释的评估体系，包括传统微调范式和提示范式下的评估指标，讨论了评估中的关键问题，如评估指标的一致性和适用性，为评估解释质量提供了方法和思路。
挑战与未来方向明确：明确了当前 LLMs 解释性研究面临的挑战，如缺乏真实解释、新兴能力来源不明等，并提出了未来的研究方向，为后续研究提供了参考和方向。

提出的方法

传统微调范式下的解释方法
- 局部解释
  - 特征归因解释：包括扰动法（如 leave - one - out 策略）、梯度法（如原始梯度、集成梯度等）、代理模型（如 LIME、SHAP）和分解法（如 LRP、DTD），用于衡量输入特征对模型预测的贡献。
  - 注意力机制解释：通过可视化（如 bipartite graph 和 heatmap）、基于函数的方法（结合梯度与注意力权重）和探测技术，尝试解释模型预测与注意力机制的关系。
  - 示例解释：包含对抗样本（如 TextFooler 通过操纵输入数据生成）、反事实解释（如 Polyjuice 通过扰动输入生成）和数据影响（如 influence functions、Data Shapley 等方法），从实例角度分析模型行为。
  - 自然语言解释：训练语言模型使用原始文本和人类注释解释来生成自然语言解释，但可靠性需进一步研究。
- 全局解释
  - 探测技术：包括基于分类器的探测（训练浅层分类器在预训练或微调模型上识别语言属性）和无参数探测（设计特定数据集评估模型能力），用于分析模型获取的知识。
  - 神经元激活分析：通过识别重要神经元（如无监督或有监督方式）并研究其与语言属性关系，以及利用贪婪高斯探测等技术，解释模型性能与神经元的关联。
  - 概念解释：如 TCAV 框架通过将输入映射到概念并计算概念重要性分数，以更抽象的概念解释模型预测。
  - 机制可解释性：从电路角度研究模型，包括分析神经网络隐藏表示和连接权重，探索模型组件的功能和关系，但在 LLMs 中的应用仍需深入研究。
提示范式下的解释方法
- 基础模型解释
  - 解释上下文学习：通过分析对比演示和显著性地图等方法，研究模型在上下文学习中的行为，如探索模型如何从少量示例中学习新任务。
  - 解释思维链提示：利用梯度 - 基于特征归因方法计算输入标记的显著性分数，分析思维链提示对模型行为的影响，理解其如何提高模型性能。
  - 表示工程：从表示工程角度，通过识别和控制网络中的高级概念和功能表示，以及操纵表示来满足安全要求，解释模型行为，但仍需更多研究验证其有效性。
- 助手模型解释
  - 解释微调作用：通过实验研究预训练和指令微调对模型知识获取和性能的影响，如分析模型在不同阶段对知识的掌握和应用能力。
  - 解释幻觉现象：从数据集问题（如缺乏相关数据、重复数据）和模型局限性（如依赖记忆和统计模式、逻辑推理缺陷等）两方面分析幻觉产生的原因，并提出相应解决方法。
  - 不确定性量化：采用一致性 - 基于估计（如引入随机 ness 或误导 hints 生成多个响应）、语言模型口头表达（直接说明信心程度）和令牌级不确定性聚合（从令牌预测计算总体不确定性）等方法量化模型预测的不确定性。
利用解释改进模型和应用的方法
- 改进语言模型：如思维链提示（在答案前提供中间推理步骤）、解释调优（利用更高级模型的详细解释训练小模型）、压缩指令（通过分析任务定义中的关键内容去除不必要信息）等方法，提高模型在少样本学习等任务中的性能。
- 下游应用：在医疗领域，提出利用视觉 - 语言模型（如 CLIP）和 LLMs（如 ChatGPT）实现可解释的零样本医疗图像诊断，通过 ChatGPT 生成疾病症状和视觉特征的文本描述，辅助 CLIP 进行更准确的诊断。

指标

合理性评估指标（适用于传统微调范式的局部解释）
- 语法、语义、知识、推理和计算维度评估：从这些维度描述掩码输入与人类注释理由的关系，衡量解释在不同层面的合理性。
- 基于 token - 级和整体的指标：如 Intersection - Over - Union（IOU）、precision、recall 用于衡量两个 token - 级理由的匹配程度；F1 score（离散情况）和 area under the precision recall curve（AUPRC，连续或软 token 选择情况）用于评估整体合理性。
忠实性评估指标（适用于传统微调范式的解释）
- 模型级原则：包括 implementation invariance（模型架构变化时归因分数应不变）、input invariance（有效输入变化时归因方法应反映预测模型的敏感性）、input sensitivity（解释预测差异的特征归因分数应为非零）、completeness（结合敏感性和路径积分）、polarity consistency（避免高排名特征对最终预测的抑制影响）、prediction consistency（相同解释的实例应具有相同预测）和 sufficiency（具有相同归因的数据应具有相同相关标签）。
- 基于测试集的指标：如 comprehensiveness（移除重要 token 前后原始预测类别的概率变化）、sufficiency（提取的理由部分使模型做出预测的程度）、Decision Flip - Fraction Of Tokens（触发决策翻转所需移除的平均 token 比例）、Decision Flip - Most Informative Token（移除最有影响力的 token 导致决策翻转的比率）。
提示范式解释的评估指标
- 合理性评估：通过评估解释的反事实模拟能力，包括 simulation generality（解释帮助模拟的反事实的多样性）和 simulation precision（模拟的反事实中人类猜测与模型输出匹配的比例），衡量解释是否满足人类期望。
- 忠实性评估：通过实验分析思维链解释在不同任务中的忠实性，如检查模型是否能正确反映特征重要性和特征极性，以及通过分解问题等方法提高解释的忠实性。

模型结构（文中未详细提及特定的新模型结构，主要是对现有大语言模型在不同训练范式下的行为和解释方法进行研究）

传统微调范式模型：通常先在大规模无标签文本上进行预训练，学习语言的一般表示，然后在特定下游任务的有标签数据上进行微调，通过添加全连接层等方式适应不同任务。例如 BERT、RoBERTa 等模型，其结构主要基于 Transformer 架构，包含多层的编码器，通过自注意力机制对输入文本进行编码和解码，在预训练和微调过程中调整模型参数以适应不同任务需求。
提示范式模型
- 基础模型：如 GPT - 3、LLaMA 等，规模巨大（通常数十亿或更多参数），通过在大规模文本上预训练获得强大的语言理解和生成能力，能够基于提示进行少样本学习，模型结构主要基于 Transformer 解码器，通过自注意力机制处理输入文本并生成相应的输出。
- 助手模型：如 GPT - 3.5、LLaMA - 2 - Chat 等，在基础模型的基础上，经过监督微调（如通过指令调整和强化学习从人类反馈中学习），使其能够更好地遵循用户指令，与人类偏好对齐，具备更强的推理和对话能力，模型结构在基础模型的 Transformer 架构基础上，进一步优化和调整以适应特定的任务和交互需求。

结论

研究成果总结：对大语言模型的解释性技术进行了全面综述，包括不同训练范式下的解释方法、解释的评估、利用解释改进模型以及应用等方面的研究成果。总结了各种解释方法的特点、优势和局限性，以及在模型调试、改进和实际应用中的作用。
强调重要性：强调了可解释性在确保大语言模型透明、公平和有益方面的关键作用，随着模型的不断发展，可解释性将成为理解和信任模型的重要保障，有助于提高模型在实际应用中的可靠性和安全性。
研究领域现状：指出当前研究在解释性技术方面取得了一定进展，但仍面临诸多挑战，如缺乏真实解释、新兴能力来源不明确、两种范式对比研究不足等，这些挑战限制了对大语言模型的深入理解和有效应用。
对未来研究的展望：希望本综述能为该领域的研究提供有用的组织框架，突出未来的研究方向，如开发针对不同模型的解释方法、改进解释的评估指标、提高人类对解释的理解能力等，以推动大语言模型解释性研究的进一步发展。

剩余挑战和未来工作

解释缺乏真实基准：缺乏用于评估 LLMs 全局解释的基准数据集和真实解释，未来需要创建或获取更可靠的评估资源，以设计更准确的解释算法和评估指标，确保解释的有效性和可靠性。
新兴能力机制探究：深入研究 LLMs 新兴能力（如上下文学习、思维链提示等）的来源和机制，从模型架构、训练数据和算法等多方面进行分析，以更好地理解和控制这些能力，提高模型的性能和可解释性。
范式比较与融合：进一步比较下游微调范式和提示范式在解释和推理方面的差异，探索如何融合两种范式的优势，提高模型在不同任务和场景下的适应性和鲁棒性，同时为模型选择合适的训练和应用范式提供指导。
解决捷径学习问题：针对 LLMs 在不同训练范式下的捷径学习行为，研究有效的干预措施，改进模型训练算法，使其能够更全面、深入地学习数据中的模式和关系，减少对特定数据集特征的依赖，增强模型的泛化能力。
注意力机制优化：基于对注意力冗余的研究，进一步优化注意力机制，开发更有效的注意力分配策略，在减少冗余的同时提高模型对关键信息的关注和利用能力，从而提升模型性能并增强解释性。
动态分析训练过程：加强对 LLMs 训练过程的动态分析，建立能够跟踪模型训练动态的方法和工具，研究模型在训练过程中的参数变化、表示学习和能力发展，以揭示训练过程中的因果关系和关键阶段，为模型优化和解释提供更深入的依据。
确保安全与伦理合规：在 LLMs 的发展过程中，更加注重安全与伦理问题，开发有效的可解释性工具和方法，用于审计模型的潜在风险，如偏见、错误信息传播等，确保模型的行为符合人类价值观和社会规范，促进 LLMs 的安全、可靠和有益应用。

数据集（文中提及了一些用于研究的数据集，但未详细介绍其构建和使用方法）

用于评估解释合理性的数据集：通常包含带有人类注释理由的文本数据，这些数据在语法、语义、知识、推理和计算等维度上满足一定标准，如句子中包含需要解释的部分（如掩码）和对应的人类注释理由，用于衡量解释模型生成的解释与人类理解的匹配程度。
用于训练和评估模型的数据集
- 传统微调范式：如 GLUE 基准中的 SST - 2、MNLI、QQP 等数据集，用于在特定下游任务上对模型进行微调训练和性能评估，这些数据集包含有标签的数据，涵盖了不同类型的自然语言处理任务，如情感分析、自然语言推理等。
- 提示范式：文中未提及专门用于提示范式模型训练和评估的特定数据集，但在研究上下文学习、思维链提示等能力时，可能使用了各种领域和类型的文本数据作为示例或测试数据，以探索模型在不同场景下的表现和解释方法的有效性。

原文

抽象

大型语言模型（LLM）在自然语言处理方面表现出了令人印象深刻的功能。然而，它们的内部机制仍不清楚，这种缺乏透明度 会给下游应用带来不必要的风险。因此，理解和解释这些模型对于阐明它们的行为、局限性和社会影响至关重要。在本文中，我们介绍了可解释性技术的分类法，并提供了解释基于 Transformer 的语言模型的方法的结构化概述。我们根据 LLM 的训练范式对技术进行分类： 传统的基于微调的范式和基于提示的范式。对于每个范式，我们总结了生成单个预测的局部解释和整体 模型知识的全局解释的目标和主要方法。我们还讨论了用于评估生成的解释的指标，并讨论了如何利用解释来调试模型和提高性能。最后，我们研究了与传统深度学习模型相比，LLM 时代解释技术的主要挑战和新兴机遇。

1 引言

大型语言模型（LLM），如 BERT（Devlin 等人，2019a）、GPT-3（Brown 等人，2020 年）、GPT4（OpenAI，2023b）、LLaMA-2（Touvron 等人，2023b）和 Claude（AnthropicAI，2023 年），在广泛的自然语言处理（NLP）任务中表现出令人印象深刻的表现。Microsoft、Google 和百度等主要技术公司已在其商业产品和服务中部署了 LLM 以增强功能。例如，Microsoft 利用 GPT-3.5 来提高新 Bing 中的搜索相关性排名（Mehdi，2023 年）。由于 LLM 是众所周知的复杂的 "黑盒" 系统，因此其内部工作机制是不透明的，并且高度复杂性使模型解释极具挑战性。在某些情况下，这种缺乏模型透明度会导致有害内容或幻觉的产生（Weidinger et al.， 2021）。因此，开发可解释性以阐明这些强大的模型是如何工作的至关重要。

可解释性 1 是指以人类可理解的术语解释或呈现模型行为的能力（Doshi-Velez & Kim，2017;Du et al.， 2019a）。提高 LLM 的可解释性至关重要，主要有两个原因。首先，对于一般最终用户，可解释性通过阐明推理模型预测背后的机制来建立适当的信任，无需技术专业知识。这样，最终用户就能够了解 LLM 的功能、限制和潜在缺陷。

其次，对于研究人员和开发人员来说，解释模型行为可以深入了解，以识别意外的偏差、风险和需要改进性能的领域。换句话说，可解释性充当调试辅助工具，以快速提高下游任务的模型性能（Strobelt et al.， 2018;Bastings 等人，2022 年；Yuksekgonul et al.， 2023）。它有助于跟踪模型功能随时间的变化，在不同模型之间进行比较，并为实际部署开发可靠、合乎道德且安全的模型。

与传统的深度学习模型相比，LLM 在参数和训练数据方面的规模为可解释性研究带来了复杂的挑战和令人兴奋的机会。首先，随着模型变得更大，由于内部复杂性的增加和训练数据的庞大，理解和解释其决策过程变得更加困难。 这种复杂性还需要大量的计算资源来生成解释。一方面，传统上实用的特征归因技术，如基于梯度的方法（Sundararajan 等人，2017）和 SHAP 值（Lundberg & Lee，2017a），可能需要大量的计算能力来解释具有数十亿个参数的 LLM。这使得这些解释技术对于最终用户可以使用的实际应用程序不太实用。另一方面，这种增加的复杂性使深入分析具有挑战性，阻碍了模型的调试和诊断。此外，理解 LLM 在情境学习（Li et al.， 2023b）和思维链提示（Wu et al.， 2023a）以及幻觉现象方面的独特能力，对于解释和改进模型是必不可少的。其次，这种缩放还刺激了可解释性技术的创新，并为模型行为提供了更丰富的见解。例如，LLM 可以为他们自己的决策过程提供思路链解释。此外，最近的研究发现 LLM 可以作为工具，为其他机器学习的预测提供事后解释（Kroeger 等人，2023 年）。为了更好地理解和增强 LLM，必须审查可用的可解释性技术并加深对潜在未来方向的理解。

在本文中，我们全面概述了解释基于 Transformer 的语言模型的方法。在第 2 节中，我们介绍了应用 LLM 的两个主要范式：1）传统的下游微调范式和 2）提示范式。基于这种分类，我们在第 3 节中回顾了微调 LLM 的可解释性方法，并在第 4 节中提示了 LLM。在第 5 节中，我们讨论了可解释性方法的评估。最后，在第 6 节中，我们进一步讨论了与传统深度学习模型相比，解释 LLM 的研究挑战，并提供了对未来潜在研究方向的见解。本文旨在全面梳理近年来复杂语言模型解释的研究进展。

2 LLM 的训练范式

LLM 的训练大致可以分为两种范式，传统的微调和提示，具体取决于它们如何用于适应下游任务。由于这两种范式之间存在实质性差异，因此分别提出了各种类型的解释（如图 1 所示）。

2.1 传统的微调范式

在这个范式中，语言模型首先在大量未标记的文本数据语料库上进行预训练，然后对来自特定下游领域的一组标记数据进行微调，例如 GLUE 基准上的 SST-2、MNLI 和 QQP（Wang et al.， 2019）。在微调过程中，很容易在语言模型的最终编码器层上方添加全连接层，使其能够适应各种下游任务（Rogers et al.， 2021）。这种范例已被证明适用于中型语言模型，通常包含多达 10 亿个参数。例子包括 BERT （Devlin et al.， 2019a）、RoBERTa （Liu et al.， 2019）、ELECTRA （Clark et al.， 2020）、DeBERTa （He et al.， 2021）等。对这种范式的解释集中在两个关键领域：1）了解自我监督的预训练如何使模型获得对语言的基本理解（例如，句法、语义和上下文关系）;2）分析微调过程如何使这些预训练模型具备有效解决下游任务的能力。

2.2 提示 Paradigm

提示范例涉及使用提示（例如带有空格的自然语言句子供模型填充）来实现零样本或少数样本学习，而无需额外的训练数据。这种范式下的模型根据其开发阶段可以分为两种类型：

基本模型：随着 LLM 的大小和训练数据的扩展，它们会表现出令人印象深刻的新功能，而无需额外的训练数据。其中一种功能是通过提示进行小样本学习。这种类型的范式通常适用于大型语言模型（具有数十亿个参数），例如 GPT-3（Brown 等人，2020 年）、OPT（Zhang 等人，2022b）、LLaMA-1（Touvron 等人，2023a）、LLaMA-2（Touvron 等人，2023b）、Falcon（Almazrouei 等人，2023 年）。这些模型称为基础模型或基础模型 2，它们可以与用户聊天，而无需进一步与人类偏好保持一致。大型模型通常适合这种范式，大小超过 1B。例如，LLaMA-2 （Touvron et al.， 2023b）具有多达 70B 的参数。基础模型的解释旨在了解模型如何学习利用其预训练的知识来响应提示。

辅助模型：基本模型有两个主要限制：1）它们无法遵循用户指示，因为预训练数据包含很少的指令响应示例，以及 2）它们往往会产生有偏见和有毒的内容（Carlini et al.， 2023）。为了解决这些限制，基本模型通过监督微调（参见图 2）进一步微调，以实现人类水平的能力，例如开放域对话。关键思想是使模型的响应与人类的反馈和偏好保持一致。这个过程最典型的方法是通过（prompts， response）演示对和来自人类反馈的强化学习（RLHF）进行指令调整。模型使用自然语言反馈进行训练进行复杂的多轮次对话。属于这个家族的模型包括 OpenAI 的 GPT-3.5 和 GPT4（Bubeck et al.， 2023）、Anthropic 的 Claude（AnthropicAI，2023 年），以及开源模型，如 Meta 的 LLaMA-2-Chat（Touvron et al.， 2023b）、Alpaca（Taori et al.， 2023）和 Vicuna（Chiang et al.，2023）。这些模型可以称为 Assistant Model、Chat Assistant 或 Dialogue Model。此处的解释侧重于了解模型如何从对话中学习开放式交互式行为。

3 传统微调范式的解释

在本节中，我们回顾了使用预训练和下游微调范式训练的 LLM 的解释技术。首先，我们介绍了提供局部解释（第 3.1 节）和全局解释（第 3.2 节）的方法。在这里，局部解释旨在提供对语言模型如何对特定输入实例进行预测的理解，而全局解释旨在提供对 LLM 整体工作原理的广泛理解。接下来，我们将讨论如何使用解释来调试和改进模型（第 3.3 节）。

3.1 本地说明

第一类解释是指解释 LLM 生成的预测。 让我们考虑一个场景，我们有一个语言模型，我们将特定文本输入到模型中。然后，该模型会生成分类输出，例如情绪分类或对下一个标记的预测。在这种情况下，解释的作用是阐明模型生成特定分类或标记预测的过程 。由于目标是解释 LLM 如何对特定输入进行预测，因此我们将其称为局部解释 。该类别包括生成解释的四种主要方法，包括基于特征归因的解释、基于注意力的解释、基于示例的解释和自然语言解释（见图 3）。

3.1.1 基于特征归因的解释

特征归因方法旨在衡量每个输入特征（例如，单词、短语、文本跨度）与模型预测的相关性。给定一个由 n 个单词特征组成的输入文本 x：，一个微调的语言模型 f 会生成一个输出）。归因方法为输入词特征 8452661f-7138-491e-8dfd-19dfc71c-4e67-67-aacc-4e67-a1e2-3f6df0dff69c 分配相关性分数 099de41c-e731c，以反映其对模型预测的贡献。遵循此策略的方法主要可分为四种类型：基于扰动的方法、基于梯度的方法、代理模型和基于分解的方法。

基于扰动的解释基于扰动的方法通过扰动输入示例（例如删除、屏蔽或更改输入特征）以及评估模型输出更改来工作。最直接的策略是留一法，它通过删除各个级别的特征来扰乱输入，包括嵌入向量、隐藏单元（Li et al.， 2017）、单词（Li et al.， 2016）、标记和跨度（Wu et al.， 2020b）来衡量特征重要性。基本思路是删除最小输入集以更改模型预测。输入集是使用各种指标（例如置信度分数或强化学习）选择的。但是，此删除策略假定输入特征是独立的，并且忽略了它们之间的相关性。此外，由于过度自信模型的病理行为，基于置信度分数的方法可能会失败（Feng et al.， 2018）。例如，即使减少的输入是无意义的，模型也可以保持高置信度预测。这种过度自信问题可以通过以下方式缓解

使用常规示例进行正则化、标签平滑和微调模型的置信度（Feng et al.， 2018）。此外，当前的扰动方法往往会产生分布外数据。这可以通过限制扰动的数据以保持接近原始数据分布来缓解（Qiu et al.， 2021）。

基于梯度的解释基于梯度的归因技术通过分析输出相对于每个输入维度的偏导数来确定每个输入特征的重要性。导数的大小反映了输出对输入变化的敏感性。原始梯度方法的基本公式描述为，其中）是网络的预测函数，表示输入向量。该方案也作为梯度 × 输入得到了改进（Kindermans 等人，2017 年），并已用于各种解释任务，例如计算代币级归因分数（Mohebbi 等人，2021 年）。但是，基于 Vanilla 梯度的方法有一些主要限制。首先，它们不满足输入不变性，这意味着输入转换（如常移）可以产生误导性归因，而不会影响模型预测（Kindermans et al.， 2017）。其次，他们无法处理零值输入。第三，它们遭受梯度饱和，其中大梯度占主导地位，并掩盖了较小的梯度。与参考的差异方法，例如综合梯度（IG），被认为非常适合通过满足更多的归因公理来解决这些挑战（Sundararajan et al.， 2017）。IG 及其变体的基本机制是累积在参考点和实际输入之间对输入进行插值时获得的梯度。基线参考点对于可靠评估至关重要，但选择适当基线的标准仍不清楚。有些使用噪声或合成参考来训练数据，但不能保证性能（Lundstrom et al.， 2022）。此外，IG 难以捕捉饱和区域的输出变化，应关注非饱和区域（Miglani et al.， 2020）。IG 的另一个挑战是实现高质量积分的计算开销。由于 IG 沿直线路径集成，因此不能很好地拟合离散词嵌入

空间，已经开发了变体来使其适应语言模型（Sikdar et al.， 2021;Sanyal & 任， 2021;Enguehard，2023 年）。

代理模型代理模型方法使用更简单、更易理解的模型来解释黑盒模型的单个预测。这些代理模型包括决策树、线性模型、决策规则和其他本质上更容易为人类理解的白盒模型。解释模型需要满足可加性，这意味着预测的总影响应等于每个解释因子的单个影响之和。此外，可解释表示的选择也很重要。与原始特征不同，这些表示应该足够强大以生成解释，但对人类来说仍然易于理解和有意义。一种称为 LIME 的早期代表性局部解释方法（Ribeiro et al.， 2016）采用了这种范式。为了生成特定实例的解释，代理模型将基于围绕该实例本地采样的数据进行训练，以近似原始复杂模型在本地区域中的行为。然而，结果表明 LIME 并不满足加法归因的某些属性，例如局部准确性、一致性和缺失性（Lundberg & Lee，2017b）。SHAP 是另一个满足加法归因方法理想属性的框架（Lundberg & Lee，2017b）。它将特征视为合作预测游戏中的参与者，并为每个特征子集分配一个值，以反映它们对模型预测的贡献。SHAP 不是为每个实例构建一个局部解释模型，而是使用整个数据集计算 Shapley 值（Shapley et al.， 1953）。应用 SHAP 的挑战包括选择适当的方法来删除特征和有效地估计 Shapley 值。可以通过将值替换为分布中的零、均值或样本等基线来完成特征删除，但尚不清楚如何选择正确的基线。估计 Shapley 值还面临着特征数量呈指数级计算的复杂性。已采用包括加权线性回归、置换检验和其他特定于模型的方法在内的近似策略（Chen 等人，2023c）来估计 Shapley 值。尽管很复杂，但 SHAP 仍然很受欢迎并被广泛使用，因为它对大型深度模型具有表现力。为了使 SHAP 适应基于 Transformer 的语言模型，已经提出了 TransSHAP 等方法（Chen et al.， 2023c;Kokalj 等人，2021 年）。TransSHAP 主要侧重于使 SHAP 适应子词文本输入，并提供非常适合理解 LLM 如何进行预测的顺序可视化解释。

空间，已经开发了变体来使其适应语言模型（Sikdar et al.， 2021;Sanyal & 任， 2021;Enguehard，2023 年）。

代理模型代理模型方法使用更简单、更易理解的模型来解释黑盒模型的单个预测。这些代理模型包括决策树、线性模型、决策规则和其他本质上更容易为人类理解的白盒模型。解释模型需要满足可加性，这意味着预测的总影响应等于每个解释因子的单个影响之和。此外，可解释表示的选择也很重要。与原始特征不同，这些表示应该足够强大以生成解释，但对人类来说仍然易于理解和有意义。一种称为 LIME 的早期代表性局部解释方法（Ribeiro et al.， 2016）采用了这种范式。为了生成特定实例的解释，代理模型将基于围绕该实例本地采样的数据进行训练，以近似原始复杂模型在本地区域中的行为。然而，结果表明 LIME 并不满足加法归因的某些属性，例如局部准确性、一致性和缺失性（Lundberg & Lee，2017b）。SHAP 是另一个满足加法归因方法理想属性的框架（Lundberg & Lee，2017b）。它将特征视为合作预测游戏中的参与者，并为每个特征子集分配一个值，以反映它们对模型预测的贡献。SHAP 不是为每个实例构建一个局部解释模型，而是使用整个数据集计算 Shapley 值（Shapley et al.， 1953）。应用 SHAP 的挑战包括选择适当的方法来删除特征和有效地估计 Shapley 值。可以通过将值替换为分布中的零、均值或样本等基线来完成特征删除，但尚不清楚如何选择正确的基线。估计 Shapley 值还面临着特征数量呈指数级计算的复杂性。已采用包括加权线性回归、置换检验和其他特定于模型的方法在内的近似策略（Chen 等人，2023c）来估计 Shapley 值。尽管很复杂，但 SHAP 仍然很受欢迎并被广泛使用，因为它对大型深度模型具有表现力。为了使 SHAP 适应基于 Transformer 的语言模型，已经提出了 TransSHAP 等方法（Chen et al.， 2023c;Kokalj 等人，2021 年）。TransSHAP 主要侧重于使 SHAP 适应子词文本输入，并提供非常适合理解 LLM 如何进行预测的顺序可视化解释。

3.1.2 基于注意力的解释

注意力机制通常被视为关注输入中最相关部分的一种方式。直观地说，注意力可以捕捉到输入的中间状态之间有意义的相关性，这些相关性可以解释模型的预测。许多现有的方法试图仅根据注意力权重或通过分析注意力中编码的知识来解释模型。这些解释技术可以分为三大类：可视化方法、基于函数的方法和基于探测的方法。由于通常使用基于探测的技术来学习全局解释，因此在 Section 3.2.1 中讨论了它们。此外，关于注意力权重是否真的适合解释，存在着广泛的研究争论。本主题将在后面的讨论中介绍。

可视化可视化注意力提供了一种直观的方式，通过显示注意力模式和统计数据来了解模型的工作原理。常见技术包括可视化单个

使用二分图或热图输入。这两种方法只是注意力的不同视觉表示，一种是图形，另一种是矩阵，如图 4 所示。可视化系统的不同之处在于它们通过以不同模型的各种形式表示注意力来显示多个尺度上的关系的能力。在输入数据层面，显示了前提句和假设句之间每个单词 / 标记 / 句子对的注意力分数，以评估模型预测的忠实度（Vig，2019）。一些系统还允许用户手动修改注意力权重以观察效果（Jaunet et et al.， 2021）。在神经元水平上，可以检查单个注意力头以了解模型行为（Park 等人，2019 年；Vig，2019 年；Hoover et al.， 2020;Jaunet 等人，2021 年）。在模型级别，跨头部和层的注意力被可视化以识别模式（Park 等人，2019 年；Vig，2019 年；Yeh et al.， 2023）。一项值得注意的工作侧重于可视化注意力流以追踪注意力的演变，这可用于理解信息转换并实现模型之间的训练阶段比较（DeRose et al.， 2020）。因此，注意力可视化提供了一种明确的交互式方式来诊断偏差、错误和评估决策规则。有趣的是，它还有助于形成解释性假设。

基于函数的方法由于原始注意力不足以完全解释模型预测，因此一些研究开发了增强的变体作为替代品，以确定需要解释的重要属性。梯度是衡量敏感度和显著性的公认指标，因此它被广泛纳入自定义归因分数中。这些自行设计的归因分数在定义涉及注意力权重的梯度方面有所不同。例如，梯度可以是注意力权重输出的偏导数（Barkan et al.， 2021）或部分梯度的积分版本（Hao et al.， 2021）。梯度和注意力之间的运算也可能有所不同，例如元素级乘积。总体而言，这些混合了注意力和梯度的归因分数通常比单独使用任何一个效果更好，因为它们融合了更多信息，有助于突出重要特征和了解网络。

关于注意力的争论有广泛的研究评估了注意力头，但关于这种方法有效性的争论不太可能很快得到解决。争论源于几个关键方面。首先，一些作品将基于注意力的解释与来自 LIME 等其他方法的解释进行了比较。他们发现注意力往往无法识别预测的最重要特征（Serrano & Smith， 2019;Jain & Wallace，2019 年）。与这些替代方案相比，它们提供的解释较差（Thorne 等人，2019 年）或者无法与其他解释方法相关联（Jain & Wallace，2019 年；Liu et al.， 2020;Ethayarajh & Jurafsky，2021 年）。其次，一些人直接批评了注意力机制在模型预测中的有用性。他们认为，原始注意力无法捕捉文本中的句法结构，并且可能无法像通常假设的那样对预测做出贡献（Mohankumar et al.， 2020）。此外，原始注意力包含冗余信息，降低了其解释的可靠性（Bai et al.， 2021;Brunner 等人，2019 年）。然而，其他研究与这些说法相矛盾。例如，评估解释模型的一致性可能会在各种方法中带来挑战，而不仅仅是注意力（Neely et al.， 2021）。此外，在不进行重新训练的情况下操纵注意力权重可能会使评估产生偏差（Wiegreffe &

inter，2019 年）。此外，BERT 中的注意力头已被证明可以有效地编码语法（Clark et al.， 2019）。为了使注意力易于解释，还通过优化输入表示（Mohankumar et al.， 2020）、规范学习目标（Moradi et al.， 2021）、避免有偏见的学习（Bai et al.， 2021）甚至纳入人类原理（Arous et al.， 2021）来探索技术解决方案。但正在进行的辩论的核心原因是缺乏完善的评估标准，这将在第 5.1 节中进一步讨论。

3.1.3 基于示例的解释

基于示例的解释旨在从单个实例的角度解释模型行为（Koh & Liang，2017）。与基于模型或基于特征的解释不同，基于示例的解释说明了模型的输出如何随不同的输入而变化 。我们专注于对抗性示例、反事实解释和数据影响 。对抗性示例 通常是通过操作 Importing 数据中不太重要的组件来合成的 。它们揭示了模型动摇或错误的情况，阐明了它的弱点。相比之下，反事实解释 主要是通过更改输入数据的重要部分生成的，它们在算法追索权等场景中很受欢迎，因为它为理想的结果提供了补救措施。与操作输入不同，数据影响检查训练数据如何影响模型对测试数据的预测。

对抗性示例研究表明，神经模型极易受到输入数据中的微小变化的影响。这些精心设计的修改可以改变模型决策，同时几乎不会被人类注意到。对抗性示例对于揭示模型失败的领域至关重要，并且通常会添加到训练数据中以提高稳健性和准确性。对抗性示例最初是通过单词级操作生成的，例如错误、删除和插入，这些操作在检查时很明显。更高级的代币级扰动方法，如 TextFooler （Jin et al.， 2020）已经被推进，它根据排名战略性地首先针对重要词。然后，根据单词嵌入相似性、相同词性、句子语义相似性和预测偏移来选择候选词。然而，与上下文化表示相比，句子表示中的单词嵌入受到限制，这通常会导致不连贯的片段。通过关注情境化的表现，一系列采用面具后填充程序的工作已经达到了最先进的性能（Garg & Ramakrishnan，2020;Li et al.， 2021b）。他们利用预先训练的掩码语言模型（如 BERT）进行扰动，包括替换、插入和合并。通常，使用大型语料库来训练掩码语言模型、生成上下文化表示并获得标记重要性。然后冻结模型，并按排名顺序对 Token 执行扰动操作。对于替换，生成的示例将替换掩码令牌。对于注入，新令牌将插入到掩码令牌的左侧或右侧。对于合并，二元语法被屏蔽并替换为一个标记。SemAttack （Wang et al.， 2022b）提出了一个更通用、更有效的框架，适用于各种嵌入空间，包括错别字空间、知识空间和情境化语义空间。首先，将输入标记转换为嵌入空间，以生成经过迭代优化的扰动嵌入，以满足攻击目标。实验表明，替换 5% 的单词会将 BERT 的准确率从 70.6% 降低到 2.4%，即使在白盒设置中进行防御也是如此。SemAttack 出色的攻击性能可能是因为它直接操纵嵌入。

反事实解释反事实解释是随意解释的一种常见形式，将输入视为格兰杰因果关系下预测的原因。给定观察到的输入 x 和某些特征发生变化的扰动，预测 y 将更改为。反事实解释揭示了根据观察到的某些输入变化会发生什么。它们通常是为了满足某些需求而生成的，例如通过选择特定的反事实来满足算法追索权。示例可以由人类或扰动技术（如释义或单词替换）生成。具有代表性的生成器 Polyjuice （Wu et al.， 2021）支持输入句子的多种排列类型，例如删除、否定和洗牌。它还可以根据代币的重要性来扰乱代币。然后，Polyjuice 对针对下游任务量身定制的特定原始句子和扰动句子对 GPT-2 进行微调，以提供逼真的反事实。它生成了更广泛的反事实，每个反事实的中位速度为 10 秒，而以前依赖于人群工人的方法为 2 分钟（Kaushik 等人，2020 年）。反事实解释生成被定义为涉及第一个掩码的两阶段方法

................

4 提示范式说明

随着语言模型的规模扩大，基于提示的模型表现出涌现的能力，需要新的视角来阐明其潜在机制。然而，模型规模的激进激增使传统的解释方法变得不适用。将针对传统微调范式的某些可解释性技术应用于基于提示的范式的挑战可以从多个方面进行总结。例如，基于提示的模型依赖于推理能力（Wei et al.， 2023b），这使得本地化或特定于示例的解释变得不那么有意义。此外，在数千亿个参数或更大的规模上，计算要求苛刻的解释技术很快就会变得不可行。此外，基于提示的模型错综复杂的内部工作和推理过程太复杂，无法通过简化的代理模型来有效捕获。

鉴于这些挑战，针对这种提示范式量身定制的新解释技术正在出现。例如，思维链（CoT）解释可能为基于提示理解和解释大型语言模型的行为提供更合适的方法。此外，专注于识别有助于预测的有影响力示例的方法也越来越重要。识别这些关键数据点可能会显著增强我们对数据集构成的理解。传统微调范式的全局解释技术也被广泛用于基于提示的 LLM。特别是这些能够提供高级解释的技术，例如基于概念的解释和基于模块的解释。

在本节中，我们首先介绍解释属于提示范式的模型的技术，包括 1）解释 LLaMA-2 等基本模型（第 4.1 节），2）解释 LLaMA-2-Chat 等辅助模型（第 4.2 节），以及 3）如何利用 LLM 的推理和解释能力来提高语言模型的预测性能并实现有益的应用程序（第 4.3 节）。

4.1 基础模型说明

随着语言模型规模的增加，它们表现出新的能力，如小样本学习，即仅从几个例子中学习概念的能力。他们还展示了一种思维链（CoT）提示能力，该能力允许向模型提供一系列提示，以引导其生成朝着特定方向发展并让它解释其推理（Wei et al.， 2022）。鉴于这些新兴特性，可解释性研究有三个主要目标：1）了解这些大型语言模型如何从有限的示例中如此快速地掌握新任务，这有助于最终用户解释模型的推理，2）解释 CoT 提示，以及 3）和表示工程。

4.1.1 解释情境学习

可解释的 AI 技术已被用于阐明提示在 LLM 中的工作原理。具体来说，我们讨论了阐明上下文学习（ICL）如何影响模型行为的技术。

一项研究使用 SST-2 情感分析基准作为基线任务来解释情境学习范式（Li et al.， 2023b）。它通过分析对比演示和显著性图来研究 ICL 在 LLM 中的工作原理。作者通过翻转标签、扰乱输入文本和添加补充解释来构建对比演示。对于情感分析任务，他们发现翻转标签更有可能降低较小模型（例如 GPT-2）的显著性，而对大型模型（例如 InstructGPT）产生相反的影响。不同演示类型的影响似乎因模型规模和任务类型而异。需要对一系列模型、任务和数据集进行进一步分析。另一项研究调查了大型语言模型中的 ICL 是否由预训练中的语义先验启用，或者它是否从提供的示例中学习输入标签映射（Wei et al.， 2023b）。实验结果表明，大型模型可以覆盖语义先验并学习相互矛盾的输入标签映射，而小型模型则更严重地依赖先验。在 ICL 示例中使用翻转标签的实验表明，大型模型可以学习翻转预测，而小型模型则不能。这些结果表明，LLM 具有更强的学习任意输入标签映射的能力，这是一种不受语义先验约束的符号推理形式，这挑战了 ICL 完全由利用先验驱动的观点。

4.1.2 解释 CoT 提示

一项研究通过分析输入标记的显著性分数来调查思维链（CoT）提示如何影响 LLM 的行为（Wu et al.， 2023a）。显著性分数表示每个输入标记对模型输出的影响程度。分数是使用基于梯度的特征归因方法计算的。目标是了解 CoT 提示与标准提示相比是否会改变显著性分数，从而深入了解 CoT 为何会提高性能。显著性分数的分析表明，CoT 提示使模型以更稳定的方式考虑问题标记。与标准提示相比，这种更稳定的输入考虑可能会产生更一致、更准确的答案。其他工作集中在扰乱小镜头提示中的 CoT 演示，例如，通过添加错误，以确定哪些方面对于生成高性能解释很重要（Madaan & Yazdanbakhsh，2022;Wang et al.， 2022a）。已经提出了反事实提示来扰乱提示的关键组成部分：符号、模式和文本（Madaan & Yazdanbakhsh），2022）。实验分析表明，中间推理步骤更多地充当模型将符号复制到事实答案的灯塔，而不是促进学习解决任务。

4.1.3 表示工程

与上述从提示工程角度解释 LLM 的两条研究方向不同，这一系列研究从表示工程的角度解释 LLM。表示工程从自上而下的角度解释模型，并考虑表示及其转换作为分析的主要元素。这种方法侧重于表征空间的结构和特征，以捕捉紧急表征和高级认知现象。Zou et al. （2023）将表示工程分为两部分：1）表示阅读，2）表示控制。表示法读取标识网络中高级概念和函数的表示法。受神经影像学方法的启发，采用了线性人工断层扫描。为了很好地引出概念和功能，包含刺激或指令的提示模板是单独设计的。对于概念，神经活动可以从最具代表性的 tokes 的表示中收集，也可以从最后一个标记中收集。对于函数，可以从特定标记后的响应中收集神经活动。然后，引入线性探针来预测具有神经活动的概念和函数。表示控制旨在根据对表示阅读的理解来操纵概念和功能的内部表示，以满足安全要求。直接添加读取向量可以诱导诚实的模型输出，减去读取向量可以诱导模型撒谎，这在改进模型方面显示出巨大的潜力。同样，在高质量的 true/false 语句数据集上研究表示结构也揭示了表示的线性结构。经过训练的探针在其他数据集上具有很好的泛化效果。就像在上述工作的结论中一样，真理的方向可以被识别并用来诱导真假输出（Marks & Tegmark），2023）。通过分析六个空间或时间数据集的学习表示，LLaMA-13B 等 LLM 被证明可以学习空间和时间的线性表示。此外，在不同大小的模型中也发现了类似的模式。随着模型规模的扩大，表示也越来越准确。该模型还具有专门的神经元，这些神经元会随着空间或时间的变化而激活，这与 LLMs 中事实知识的建立相符（Gurnee & Tegmark），2023）。总之，表示工程可能是控制模型输出的有前途的技术，但仍需要进一步的消融研究来确定其优缺点。

4.2 辅助模型说明

由于大规模的无监督预训练和有监督的对齐微调，属于该范式的 LLM 具有很强的推理能力。然而，它们的庞大规模也使它们容易产生有问题的输出，例如幻觉。可解释性研究旨在 1）阐明对齐微调的作用，2）分析幻觉的原因，以及 3）不确定性量化。

4.2.1 解释微调的作用

辅助模型通常分两个阶段进行训练。首先，他们对大量原始文本进行无监督的预训练，以学习一般的语言表示。这个预训练阶段允许模型获得一般语言知识。其次，模型通过监督学习和强化学习进行对齐微调。这将使模型与特定的最终任务和用户首选项保持一致。对这些模型的可解释性研究侧重于确定它们的知识是主要来自最初的预训练阶段，在这个阶段，他们获得了一般的语言能力，还是来自随后的对齐微调阶段，在这个阶段，他们是根据特定的任务和偏好量身定制的。了解模型知识的来源有助于深入了解如何改进和解释其性能。

周 et al. （2023）最近的一项研究调查了语言模型预训练与教学微调的相对重要性。在实验中，作者仅使用了 1000 条精心挑选的指令来调整 LLaMA-65B 模型，没有强化学习，并取得了与 GPT-4 相当的性能。研究人员假设，对齐可能是一个更简单的过程，模型学习交互方式和格式，而几乎所有的 LLM 知识都是在预训练期间获得的。实验结果证明了预训练的力量及其相对于大规模微调和强化学习方法的相对重要性。复杂的微调和强化学习技术可能没有以前认为的那么重要。另一方面，这项研究还表明，在指令微调过程中，数据质量比数据量更重要。此外，Wu et al. （2023c）通过检查指令遵循和概念层面的知识进化来研究指令微调的作用。结果表明，指令微调模型能够更好地区分指令和上下文，并很好地遵循用户的指令。此外，与预训练模型相比，他们可以更多地关注输入提示的中间和尾部。微调模型明确地将概念调整为面向下游用户的任务，但语言分布保持不变。与传统观点相反，即高层捕获更多语义知识，捕获的语义知识的比例最初增长，然后在微调模型中急剧下降。从自我注意头激活的角度来看，发现指令微调通过使较低层中的更多神经元编码词 - 词模式来适应识别指令动词的预训练模型（Wu et al.， 2023c）。

最近的另一项研究（Gudibande et al.， 2023）表明，模仿可以成功地改善语言模型的风格、角色和遵循指令的能力，但不能在事实性、编码和问题解决等更复杂的维度上改进语言模型。模仿是另一种常用的训练辅助模型的技术，其中像 GPT-2 或 LLaMA 这样的基础模型是根据更高级系统（例如 ChatGPT 等专有模型）生成的输出进行微调的。此外，LLaMA-2 的技术报告（Touvron et al.， 2023b）表明，微调阶段主要有助于提高语言模型的有用性和安全性，其中有用性描述了 LLaMA-2Chat 响应满足用户请求和包含预期信息的程度，安全性是指避免不安全的响应，如有毒内容。

综上所述，这些研究强调了基础模型的重要作用，强调了预训练的重要性。研究结果表明，辅助模型的知识主要在预训练阶段被捕获。随后的指令微调有助于激活这些知识，为最终用户提供有用的输出。此外，强化学习可以进一步使模型与人类价值观保持一致。

4.2.2 解释幻觉

LLM 的快速发展引发了人们对其可信度的担忧，因为它们有可能表现出不良行为，例如产生幻觉，这是一种模型以自然方式产生无关紧要和荒谬的输出的现象（Zhang 等人，2023 年；Huang 等人，2023 年）。社区对了解幻觉是如何产生的以及如何减少幻觉产生的兴趣越来越大。

最近的分析研究表明**，幻觉现象源于数据集中的各种问题（Dziri et al.， 2022），可分为两大类：1）缺乏相关数据，2）重复数据。例如，长尾知识在训练数据中很普遍，而 LLM 在学习此类知识方面很容易不足（Kandpal et al.， 2023）**。另一方面，重复数据删除很难完美完成。训练数据集中的重复数据会明显影响模型的性能。Hernandez 等人（2022 年）发现，仅重复 10% 的训练数据，800M 参数模型的性能就会下降到 400M 参数模型的性能。当根据缩放定律检查模型的性能时，中间的一定范围的重复频率可能会产生不利影响。假设此范围会导致模型记住数据，因此消耗其大部分容量。

此外，最近的研究发现，幻觉也是由模型固有的某些限制引起的 。McKenna 等人（2023 年）表明，LLM 仍然依赖于句子级别的记忆和语料库级别的统计模式，而不是稳健的推理。 他们对各种 LLM 家族在自然语言推理任务上的表现的分析证明了这一点。此外，Wu et al. （2023b）揭示了 LLM 在**本体论知识的记忆和推理方面都是不完美的。**Berglund 等人（2023 年）指出，由于反转诅咒，LLM 通常会遭受逻辑推导。LLM 往往对自己的产出过于自信，并难以准确识别事实知识边界（任 et al.， 2023）。此外，LLM 更喜欢共现的词而不是事实答案，这种现象通常被称为捷径或虚假相关性（Kang & Choi），2023）。同样，LLM 中也存在另一种不良行为阿谀奉承，它指的是模型可以生成符合用户观点而不是事实的答案。最糟糕的是，模型缩放和指令调整可能会增加这种行为（Wei et al.， 2023a）。

有几种方法可以解决幻觉问题 。首先，扩展始终是一个很好的步骤。具有 5400 亿个参数的 PaLM 在各种任务上的性能急剧提高。即使它也因学习长尾知识而受到影响，但它的记忆能力被证明比小模型更好（Chowdhery et al.， 2022）。在文本摘要任务中，Ladhak et al. （2023）表明，使用更多的提取性微调数据集和微调部分参数的适配器微调通常会产生较少的幻觉，但不会改变幻觉的分布。因此缓解措施可以通过数据方面 来实现，例如改进微调数据集和添加 syntheticData 干预（Wei et al.， 2023a），也可以在模型方面实现，例如不同的优化方法。

4.2.3 不确定性量化

研究界对量化 LLM 预测的不确定性的兴趣也越来越大，以更好地了解这些强大模型的可靠性和局限性。

大多数关于不确定性量化的现有文献都集中在 logits，然而，它不太适合 LLM，尤其是闭源 LLM。这需要非基于 logit 的方法在 LLM 中引发不确定性，称为置信度激发（Xiong et al.， 2023）。LLM 的不确定性估计有几种代表性方法。首先，基于一致性的不确定性估计涉及对一个问题生成多个回答，并使用这些回答之间的一致性来估计模型的置信度（Xiong et al.， 2023）。具体来说，它将随机性引入答案生成过程（自洽性）或向提示中添加误导性提示（诱导一致性）以产生不同的响应。多个响应越一致，答案的估计置信度就越高。其次，LLM 可以通过提供直接和具体的回答来表示对他们的预测有很高的信心，并给出间接、模糊或模棱两可的回答来传达较低的信心，从而口头传递他们的信心。LLM 可以明确说明一个百分比来量化其置信度。例如，"我对这个答案只有 20% 的信心" 清楚地表明了低信心（Xiong et al.， 2023）。第三，不确定性可以从代币层面的不确定性中汇总出来（Duan et al.， 2023）。LLM 通过预测每个标记来生成文本，该标记可以构建为分类任务。令牌级别的不确定性方法根据每个预测令牌的概率分布计算其置信度分数。然后，可以根据代币级不确定性的聚合来估计总体不确定性。

缓解措施可以通过数据方面来实现，例如改进微调数据集和添加 syntheticData 干预（Wei et al.， 2023a），也可以在模型方面实现，例如不同的优化方法。

4.2.3 不确定性量化

研究界对量化 LLM 预测的不确定性的兴趣也越来越大，以更好地了解这些强大模型的可靠性和局限性。

4.3 使用解释

在本节中，我们讨论了利用基于提示的 LLM 的解释能力来提高语言模型的预测性能并实现有益的应用程序的技术。

4.3.1 改进 LLM

这条研究线调查了 LLM 在从有限示例中学习新任务时是否可以从解释中受益。具体来说，它调查了为小样本任务的答案提供解释是否可以提高模型在这些任务上的性能 （Lampinen et al.， 2022）。提供两种形式的解释：回答前解释和回答后解释。Wei et al. （2022）提出了一种称为思维链提示的方法，该方法提供中间推理步骤作为答案前提示中的解释。这有助于语言模型在算术、符号和常识性推理任务中取得最先进的结果。最近的另一项研究在提示中的答案后提供了解释（Lampinen et al.， 2022）。实验分析表明，**提供解释可以提高大型语言模型的 few-shot 学习性能，但好处取决于模型规模和解释质量。**此外，使用验证集专门为任务定制解释会进一步增加它们的好处（Lampinen et al.， 2022）。

最近的另一项研究提出了解释调整，这是一种使用更高级模型的详细分步解释作为一种监督形式来训练较小的语言模型的方法（Mukherjee et al.， 2023）。Section 4.2.1 表示 imitation tuning 主要允许较小的模型学习较大模型的样式，而不是推理过程。为了解决这一限制，这项工作提出了利用更丰富的信号，而不仅仅是输入 - 输出对，来教较小的模型来模拟 GPT-4 等大型基础模型的推理过程。具体来说，作者收集了由 GPT-4 的提示和详细的解释性回答组成的训练数据。为了允许 GPT-4 生成解释，系统指令，例如 "您是一个乐于助人的助手，总是提供解释。像你正在回答一个五岁的孩子一样思考。实验结果表明，在复杂的零镜头推理基准测试（如 BigBench Hard）中，使用解释调整训练的模型优于使用传统指令调整训练的模型。

从解释中捕获的见解也可用于压缩说明（Yin et al.， 2023）。作者使用消融分析来研究不同类别的内容在任务定义中的贡献。然后可以利用消融分析的见解来压缩任务指令。以分类任务为例，分析表明任务指令中最重要的组成部分是标签相关信息。删除其他内容只会对分类性能产生轻微影响，作者发现，只有在删除输出标签信息时，模型性能才会大幅下降。此外，他们还提出了一种算法，通过删除不必要的标记来自动压缩定义，发现可以删除 60%，同时保持或提高 T5-XL 模型在保留数据集上的性能。

此外，一些研究还深入研究了 LLM 生成的解释在增强小样本上下文学习方面的有效性。对于涉及代码执行和算术运算 的多步骤符号推理任务，Nye 等人（2021 年）发现，结合中间计算步骤 可以显着提高模型的能力。另一方面，当涉及到包括问答和自然语言推理在内的文本推理任务时 ，只有 text-davinci-002 的准确性有所提高。其他 4 个模型，包括 OPT、GPT-3（davinci）、InstructGPT（text-davinci-001）和 textdavinci-002，没有表现出明显的改善，甚至表现更差。LLM 生成的解释从两个维度进行评估**：事实性和一致性**。结果显示，LLMs 可以产生不切实际的解释，但仍与预测一致，这反过来又会导致预测错误（Ye & Durrett），2022）。基于这个发现，已经提出了一个解释优化框架来选择导致高性能的解释（Ye & Durrett，2023）。因此，提高模型预测的准确性需要 LLM 生成可靠的解释，这在目前仍然是一个巨大的挑战。

4.3.2 下游应用

可解释性还可以应用于现实世界的问题，例如教育、金融和医疗保健。例如，可解释的零镜头医学诊断就是一个有趣的用例。最近的一项研究提出了一个框架，利用 CLIP 等视觉语言模型以及 ChatGPT 等 LLM 进行可解释的零镜头医学图像分类（Liu et al.， 2023a）。关键思想是利用 ChatGPT 自动生成疾病症状和视觉特征的详细文本描述，而不仅仅是疾病名称。这些额外的文本信息有助于从 CLIP 提供更准确和可解释的诊断（Radford 等人，2021 年）。为了处理 ChatGPT 在医学主题上的潜在不准确之处，作者设计了提示，**以获得每种疾病类别的视觉可识别症状的高质量文本描述。**对多个医学图像数据集的广泛实验证明了这种免训练诊断管道的有效性和可解释性。

5 解释评估

在前面的部分中，我们介绍了不同的解释技术及其用法，但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类：传统微调范式的局部解释评估（第 5.1 节）和提示范式的自然语言 CoT 解释的评估（第 5.2 节）。评估的两个关键维度是人类的合理性 和捕捉 LLM 内部逻辑的忠实度。

从技术上讲，评估解释涉及人工或自动化模型方法。人工评估通过模型基本原理与人类基本原理或主观判断之间的相似性来评估合理性。然而，这些方法通常忽略了忠心。主观判断也可能与模型推理不一致，因此这样的评估不可靠。正如 Jacovi & Goldberg （2020）所论述的，忠实的评估应该有一个明确的目标，避免人为参与。自动评估通过扰乱模型基本原理来测试重要性，避免人为偏见。因此，制定严格的自动指标对于公平的忠实度评估至关重要，这将包含在忠实度评估维度下。

5.1 传统微调范式中的解释评估

我们从两个方面介绍对当地解释的评价：合理性和忠实度 。这两部分将主要涵盖可用于比较各种解释方法的通用属性和指标。我们专注于定量评估属性和指标，它们通常比定性评估更可靠。

评估合理性 本地解释的合理性通常在输入文本或标记级别进行测量 。合理性评估可分为五个维度：语法、语义、知识、推理和计算（Shen et al.， 2022）。 这些维度描述了掩码输入和人工注释的基本原理之间的关系。不同的评估维度需要不同类型的数据集。例如，句子 "The country $MASK$ was established on July 4， 1776." 具有人工注释的基本原理 "established on July 4， 1776"，而掩码的答案应该是源自事实 / 知识的 "the United States"。尽管基本原理可能位于不同的粒度级别（如令牌或代码段和维度），但除了多样化量度外，评估过程是相同的。人工注释的基本原理通常来自基准数据集，应满足以下几个标准：1）充分性，这意味着基本原理足以让人们做出正确的预测；2）紧凑性要求如果删除基本原理中的任何部分，预测就会发生变化（Mathew et al.， 2021）。然后，解释模型负责预测重要的标记并使用这些标记生成基本原理。以上两种理由将用各种指标来衡量。热门指标根据其测量范围可分为两类。**衡量两个代币级基本原理的指标包括 Intersection-Over-Union （IOU）、精度和召回率。**衡量整体合理性的指标包括离散案例的 F1 分数和连续或软标记选择案例的精度召回曲线下面积（AUPRC）（DeYoung et al.， 2020）。

评估忠诚度评估原则和指标提供了一种定量衡量忠诚度的统一方法。由于它们通常是针对特定的解释技术定义的，因此我们只从模型的角度介绍一些常见但普遍的原则，从数据的角度介绍一些指标。

为了忠实，解释方法应该遵循几个模型级原则，包括实现不变性、输入不变性、输入敏感性、完整性、极性一致性、预测一致性和充分性。实现不变性 也称为模型敏感性，意味着只要网络在功能上相等 ，无论模型架构如何 ，归因分数都应该保持不变 （Sundararajan et al.， 2017）。即使是基于梯度的方法通常也能很好地满足这个指标；该假设可能没有根据。输入不变性要求归因方法反映预测模型对有效输入变化的敏感性。例如，归因分数在输入的不断变化中应保持不变（Kindermans et al.， 2017）。对于仅解释预测差异的特征，输入敏感度定义归因分数应为非零（Sundararajan et al.， 2017）。完整性将敏感性和实现不变性与微积分中的路径积分 （Sundararajan et al.， 2017）相结合，这仅适用于可微分方法。极性一致性指出，一些高级特征可能会对最终预测施加抑制效应，这会对解释产生负面影响，应该避免，但大多数情况下不要避免（Liu et al.， 2022）。预测一致性限制具有相同解释的实例应具有相同的预测 。而充分性要求具有相同归属的数据即使有不同的解释也应该具有相同的相关标签（Dasgupta et al.， 2022）。在这类方法中，研究人员旨在通过制定公理和属性来防止某些类型的矛盾解释。然而，每个指标只能解决忠心问题的一个特定方面。在单个框架中提供一体化解决方案非常困难。此外，这些方法仅侧重于通过设计解释方法的属性来避免解释模型的不一致行为。模型的整体性能使用以下指标来衡量。

一个突出的与模型无关的工作通过定量验证预测和模型基本原理之间的关系来衡量忠实度。在测试集上计算的一些常见指标如下：

・全面性 （COMP）：删除排名靠前的重要标记之前和之后原始预测类别的概率变化，这意味着基本原理的影响力。它被表述为全面性 = 。较高的分数表明基本原理 / 标记的重要性（DeYoung et al.， 2020）。

・充足性 （SUFF）：提取的基本原理中的部分可以允许模型进行预测的程度，定义为充足性 = （DeYoung 等人，2020 年）。

・决策翻转 - 代币比例（DFFOT）：为触发决策翻转而移除的代币的平均比例（Chrysostomou & Aletras，2021 年）。

・决策翻转 - 最具信息量的代币（DFMIT）：移除最具影响力的代币引起的决策翻转率（Chrysostomou & Aletras，2021）。

在 ERASER （DeYoung et al.， 2020）中，相关标记被分类为按重要性分数排序的组，以便可以按排名顺序屏蔽标记并逐渐观察输出变化。输出变化与掩码标记重要性之间的相关性表示模型正确归因特征重要性的能力。正如 TaSc（Chrysostomou & Aletras，2021）所声称的，较高的 DFMIT 和较低的 DFFOT 是首选，因为重要的代币被精确识别并且模型更加忠实。相比之下，一些工作通过解释中的弱点来衡量忠实度，例如捷径学习和特征重要性的极性。Bastings et al. （2022）通过模型识别习得捷径的程度来量化忠实度。在这种情况下，precision@ k 个标记）和平均排名（在显著性排名中搜索的平均深度）等指标表示排名靠前的特征代表所有 Ground Truth 快捷方式的程度。同样，较高的 precison@k 和较低的均值秩表示模型的忠实度较高。Liu et al. （2022）通过执行违规测试来检查忠实度，以确保模型正确反映了特征重要性和特征极性。

无论使用何种具体指标，在评估解释模型时，有两个关键问题仍然存在：**1）模型量化重要特征的能力如何？2）模型能否有效且正确地从排名靠前的特征中提取尽可能多的有影响力的特征？**然而，现有的评估指标往往与相同的解释模型不一致。例如，DFFOT 排名最高的解释可能是 SUFF 的最差解释（Chan et al.， 2022b）。TaSc 表明，基于注意力的重要性指标比非注意力指标更强大，而将注意力作为一种解释仍存在争议（Jain & Wallace，2019）。

此外，这些评估指标不能直接应用于自然语言解释，因为此类解释很少与输入有直接的关系。Atanasova et al. （2023）为自然语言解释模型提出了两种忠实度测试 。一种测试是反事实测试，其中通过插入更改预测的标记，从原始示例构建反事实示例。如果解释中不存在来自插入标记的单词，则解释方法被视为不忠实。另一个测试是输入重建测试，它探索解释是否足以做出与原始示例相同的预测。给定原始输入和解释本身，每个示例的解释将转换为新的输入。不幸的是，由于这两个测试都可能引入新的语言变体，因此当生成新短语时，它们很难公平地评估忠实度。或者，Rev （Chen et al.， 2023b）通过检查自然语言解释是否支持模型预测以及来自解释的新信息是否证明模型预测的合理性，从信息的角度提供评估指标。

5.2 提示范式中的解释评估

最近，GPT-3 和 GPT-4 等 LLM 表现出令人印象深刻的能力，可以为其预测生成自然语言解释。然而，目前尚不清楚这些解释是否真的有助于人类理解模型的推理过程并推广到新的输入。请注意，评估此类解释的目标和观点（例如，CoT 基本原理）与评估第 5.1 节中介绍的传统解释的目标和观点不同（Golovneva 等人，2022 年；Prasad et al.， 2023）。已经开发了诸如合理性、忠实度和稳定性等指标，也称为多样性来评估解释。与传统的解释类似，我们专注于评估合理性和忠实性。

评估合理性最近的一项工作研究了解释是否满足人类的期望，并提出评估自然语言解释的反事实模拟性（Chen et al.， 2023d）。也就是说，解释是否有助于人类推断 AI 模型在各种反事实输入上的行为。它们实现了两个指标：模拟普遍性 （解释有助于模拟的反事实的多样性）和模拟精度（人类猜测与模型输出相匹配的模拟反事实的分数）。他们发现 GPT-3.5 和 GPT-4 等 LLM 的解释精度低，表明它们误导人类形成不正确的心智模型。本文揭示了当前方法的局限性，并且优化人类偏好（如合理性）可能不足以提高反事实可模拟性。

评估忠实度这一系列研究解释的忠实度，即检查解释在多大程度上反映了模型预测背后的实际原因。 例如，对最近一项研究的实验分析表明，思维链解释可能是系统性的不忠实的（Turpin et al.， 2023）。作者通过在少数镜头提示中重新排序 多项选择选项以使答案始终为 "（A）"，从而在模型输入中引入了偏差 。然而，GPT-3.5 和 Claude 1.0 等语言模型在其**解释中未能承认这些偏见特征的影响。**这些模型生成的解释并不能忠实地代表真实的决策过程。另一项工作还表明，LLM 陈述的 CoT 推理在某些任务上可能不忠实，与更大、更有能力的模型相比，较小的模型往往会产生更忠实的解释（Lanham 等人，2023 年）。这些研究强调了对 LLM 解释的忠实性的担忧，即使它们看起来很合理。为了提高对 CoT 的推理忠实度，一项初步研究提议通过将问题分解为子问题并分别回答来生成模型推理（Radhakrishnan et al.， 2023）。分析表明，分解方法可以接近 CoT 的性能，同时提高多个指标的忠实度。未来需要更多的研究来开发方法，使模型解释更好地反映预测的根本原因。

6 研究挑战

在本节中，我们探讨了需要 NLP 和可解释的 AI 社区进一步调查的关键研究挑战。

6.1 没有基本事实的解释

LLM 的 Ground Truth 解释通常无法访问。例如，目前没有基准数据集来评估 LLM 捕获的单个组件的全局解释。这带来了两个主要挑战。首先，很难设计出准确反映 LLM 决策过程的解释算法。其次，缺乏基本事实使得评估解释的忠实度和保真度成为问题。在没有地面实况指导的情况下，在各种方法中选择合适的解释也具有挑战性。可能的解决方案包括涉及人工评估和创建合成解释数据集。

6.2 新兴能力的来源

随着模型规模和训练数据的增加，LLM 表现出令人惊讶的新功能，即使没有经过明确训练来执行这些任务。阐明这些新兴能力的起源仍然是一个公开的研究挑战，尤其是对于像 ChatGPT 和 Claude 这样的专有模型，它们的架构和训练数据尚未发表。即使是像 LLaMA 这样的开源 LLM 目前对其新兴技能来源的可解释性也有限。这可以从模型和数据的角度进行调查。

模型视角进一步研究基于 Transformer 的模型以阐明 LLM 的内部工作原理至关重要。关键的悬而未决的问题包括： 1）哪些特定的模型架构导致了 LLM 令人印象深刻的涌现能力？2）在不同语言任务中实现强大性能所需的最低模型复杂性和规模是多少？持续严格分析和实验

随着 LLM 的规模继续迅速增加，使用基础模型仍然势在必行。推进这些领域的知识将使 LLM 更加可控和可靠。这可以提供关于在不久的将来是否会有新的新兴能力的提示。

数据视角除了模型架构之外，训练数据是理解 LLM 涌现能力的另一个重要视角。一些具有代表性的研究问题包括：1）海量训练数据的哪些特定子集负责特定的模型预测，是否有可能找到这些示例？2）涌现能力是模型训练的结果还是数据污染问题的人为因素（Blevins et al.， 2023）？3）训练数据的质量或数量对于有效的 LLM 预训练和微调是否更重要？了解训练数据特征与模型结果行为之间的相互作用，将为大型语言模型中涌现能力的来源提供关键见解。

6.3 比较两种范例

对于自然语言推理（NLI）等给定任务，下游微调范例和提示范例可以表现出明显不同的分布内和分布外（OOD）性能。这表明这两种方法都依赖于发散的预测推理。然而，仍然缺乏对微调和提示之间解释的全面比较。需要进一步的研究来更好地阐明这些范式之间的解释差异。一些有趣的开放性问题包括：1）微调模型和提示模型在用于预测分布内样本的基本原理方面有何不同？2）是什么导致了微调和提示之间 OOD 稳健性的差异？我们能否将此追溯到推理的差异？推进这种理解将能够为给定的用例选择正确的范式，并提高跨范式的稳健性。

6.4 LLM 的快捷方式学习

最近的可解释性研究表明，语言模型在进行预测时通常会走捷径。对于下游微调范式，研究表明，语言模型利用各种数据集伪影和偏差进行自然语言推理任务，例如词汇偏差、重叠偏差、位置偏差和风格偏差（Du et al.， 2023）。这会显著影响分布外泛化性能。对于提示范式，最近的一项研究分析了语言模型如何使用更长的上下文（Liu et al.， 2023b）。结果表明，当相关信息位于上下文的开头或结尾时，性能最高，而当模型必须在长上下文中间访问相关信息时，性能会变差。这些分析表明，这两种范式都倾向于在某些情况下利用捷径，这凸显了需要更多的研究来解决这个问题并提高泛化能力。

6.5 注意力冗余

最近的研究调查了在大型语言模型中使用可解释性技术进行注意力冗余，用于传统的微调和提示范式（Bian et al.， 2021;Bansal et al.， 2022）。例如，Bian et al. 使用 BERT-base 分析了不同预训练和微调阶段的注意力冗余（Bian et al.， 2021）。实验分析表明，存在注意力冗余，发现许多注意力头是多余的，可以被修剪，而对下游任务性能的影响很小。同样，Bansal 等人使用 OPT-66B 研究了情境学习场景中的注意力冗余（Bansal et al.， 2022）。他们发现注意力头和前馈网络都存在冗余。他们的发现表明，许多注意力头和其他组件是多余的。这为开发模型压缩技术提供了机会，这些技术可以修剪冗余模块，同时保持下游任务的性能。

6.6 从快照可解释性转向时态分析

还有一种观点认为，当前的可解释性研究忽视了训练动力学。现有的研究主要是对完全训练的模型的事后解释。缺乏发育调查

在训练过程中，由于未能针对 convergence 所依赖的新兴能力或退化部分，即相变，可能会产生有偏见的解释。此外，对某些特征进行干预无法反映特征之间的交互（Saphra，2022 年）。因此，有一种趋势从静态的快照可解释性分析转变为动态的时态分析。通过检查训练过程中的几个检查点，Chen 等人（2023a）确定了一个突然的训练前窗口，其中模型获得了句法注意力结构（SAS），当专门的注意力头专注于单词的句法邻居时，就会发生这种情况，同时训练损失急剧下降。他们还表明，SAS 对于在学习过程中获得语法能力至关重要。受这种观点的启发，开发分析可以揭示训练过程中更多随意的关系和训练模式，这有助于理解和改进模型性能。

6.7 安全与道德

随着 LLM 的能力变得更强，LLM 中缺乏可解释性会带来重大的道德风险。如果没有可解释性，分析或限制错误信息、偏见和社会操纵等问题的潜在危害就变得具有挑战性。可解释的 AI 技术对于审计这些强大的模型并确保与人类价值观保持一致至关重要。例如，追踪训练数据归因或可视化注意力模式的工具可以揭示嵌入的偏见，例如性别刻板印象（Li et al.， 2023a）。此外，探测分类器可以识别是否存在问题的关联在模型的学习表示中编码。部署 LLM 的研究人员、公司和政府有道德责任优先考虑可解释的 AI。随着 LLM 变得越来越普遍，严格的模型审计、外部监督委员会和透明度法规等举措可以帮助降低风险。例如，随着校准系统的规模不断扩大，人类反馈在管理它们方面变得无能为力，这对这些系统的安全性构成了巨大的挑战。正如 Martin （2023）所声称的那样，利用可解释性工具作为审计流程的一部分来补充人类反馈可能是一种有效的方法。在扩大模型规模和性能的同时，推进可解释性技术必须始终是优先事项，以确保能力越来越强的 LLM 的安全和合乎道德地发展。

7 结论

在本文中，我们全面概述了 LLM 的可解释性技术。我们总结了基于模型训练范式的局部和全局解释方法。我们还讨论了使用解释来改进模型、评估和关键挑战。未来的主要开发选择包括开发针对不同 LLM 量身定制的解释方法、评估解释的忠实度以及提高人类可解释性。随着 LLM 的不断发展，可解释性对于确保这些模型透明、公平和有益将变得非常重要。我们希望这项调查为这个新兴的研究领域提供一个有用的组织，并为未来的工作突出未解决的问题。