2024.2 ACM Explainability for Large Language Models: A Survey【这是数据集的缺陷】原文抽象大型语言模型 (LLM) 在自然语言处理方面表现出了令人印象深刻的功能。然而,它们的内部机制仍不清楚,这种缺乏透明度会给下游应用带来不必要的风险。因此,理解和解释这些模型对于阐明它们的行为、局限性和社会影响至关重要。在本文中,我们介绍了可解释性技术的分类法,并提供了解释基于 Transformer 的语言模型的方法的结构化概述。我们根据 LLM 的训练范式对技术进行分类:传统的基于微调的范式和基于提示的范式。对于每个范式,我们总结了生成单个预测的局部解释和整体模型知识的全局解释