基于Saliency Map对LLM进行可解释性分析

将显著性图（Saliency Map）应用于大语言模型（LLM）的黑盒可解释性分析。

核心在于在无法获取模型内部梯度的情况下，依然能够生成反映模型决策依据的热力图。

这里基于网络资料，尝试探索基于显著图对LLM可解释性进行分析的方法。

1 传统方法为何失效

传统基于梯度的显著性图方法（如SmoothGrad、Integrated Gradients），因其坚实理论基础和良好性能，被广泛用于解释深度神经网络的决策。

这种方法在分析像GPT-4、Claude类似的闭源LLM时遇到了根本性障碍。

1）梯度不可访问

这些模型通常只提供API接口，用户只能发送请求并获取输出，无法通过反向传播计算输出对输入的梯度。

2）模型结构未知

黑盒模型的内部架构（如层数、注意力头数、激活函数）是完全不可见的，这使得任何依赖模型内部信息的白盒方法都无从下手。

3）输出的离散性

LLM的输出通常是离散的文本token，而非连续的数值概率，这给需要连续目标值进行梯度计算的传统方法带来了挑战。

2 显著性图的生成方法

为了解决上述挑战，研究人员提出了多种在黑盒设定下生成显著性图的替代方案。

这些方法主要分为两大类：基于梯度估计和基于输入扰动

2.1 基于梯度估计

通过零阶优化（Zeroth-order Optimization）的方法，在不访问计算图的情况下近似估计梯度。

代表技术是似然比方法，通过向输入引入噪声，并观察输出的变化来无偏估计梯度。

能够复用成熟的梯度显著性图理论；在GPT-Vision等模型上已展现出应用潜力。

但梯度估计方差大，尤其是在图像等高维输入上；需要精巧的设计（如分块计算）来提升精度。

2.2 基于输入扰动

通过系统地扰动输入（如遮盖或修改输入token/像素），观察输出变化，从而判断输入各部分的重要性。

代表方法是差分进化（DE-CAM），使用进化算法搜索对模型输出影响最大的像素组合。

真正的模型无关，仅需模型输出；原理直观，易于理解。 |

但计算成本极高，因为需要对每个扰动进行完整的模型前向推理，在高维输入上尤其明显。

3 似然比方法

以似然比方法研究为例，探索黑盒显著性图生成框架。

https://ar5iv.labs.arxiv.org/html/2403.15603

该方法的核心在于绕过反向传播，通过前向学习来估计梯度。

1）梯度估计

它采用似然比方法来解决黑盒梯度估计问题。

简单来说，通过对输入添加特定的随机噪声，可以将原本需要链式法则的梯度计算问题，转化为一个可以通过多次前向推理和加权求和来解决的期望问题，从而得到梯度的无偏估计。

2）提升精度针

对高维输入带来的高方差问题，该方法引入了分块计算技术。它将输入分割成多个小块，分别估计每个块的梯度，然后进行组合。这显著提升了梯度估计的准确性，进而生成更清晰的显著性图。

3）定义目标

对于LLM的离散文本输出，如何定义梯度计算的目标也是一个难题。该研究探讨了使用最邻近路径距离或语义距离等指标，将离散的文本输出转化为连续的、可度量的目标分数。

4 前沿探索

上述似然比方法框架已被成功应用于解释GPT-Vision的决策。通过分析模型对一张图片的响应，该方法生成的显著性图能够揭示图片中的哪些区域是模型做出判断的关键依据，从而在完全黑盒的情况下窥探模型的视觉注意力。

但局限与挑战依然存在，当前方法仍处于研究初期。有评论指出，现有评估多基于小型数据集和有限模型，其结论可能存在偏差。此外，梯度估计的方差问题和扰动方法的计算效率问题仍是实用化的主要障碍。

另外，除了基于显著图的探索输入的影响方法，前沿研究开始关注更深层次的解释。

比如，小波归因方法(WAM)尝试在保留结构信息的小波域而非像素域进行归因，以揭示模型关注的是纹理还是边缘等结构性特征。

https://arxiv.org/html/2410.01482

对于视觉-语言模型，像大海捞针（Needle-in-a-Patched-Haystack）这样的评估套件也在被开发出来，用于更严格地检验显著性图的可靠性和定位能力。

https://icml.cc/virtual/2025/49601

reference

Forward Learning for Gradient-based Black-box Saliency Map Generation

https://ar5iv.labs.arxiv.org/html/2403.15603

One Wave To Explain Them All: A Unifying Perspective On Feature Attribution

https://arxiv.org/html/2410.01482

Needle in a Patched Haystack: Evaluating Saliency Maps for Vision LLMs.

https://icml.cc/virtual/2025/49601

Retina-Inspired Models Enhance Visual Saliency Prediction

https://pmc.ncbi.nlm.nih.gov/articles/PMC12026020/

Saliency Maps Give a False Sense of Explanability to Image Classifiers: An Empirical Evaluation across Methods and Metrics

https://proceedings.mlr.press/v260/zhang25a.html

Language-Visual Saliency with CLIP and OpenVINO™¶

https://docs.openvino.ai/2023.3/notebooks/232-clip-language-saliency-map-with-output.html

How explainable AI affects human performance: A systematic review of the behavioural consequences of saliency maps

https://www.arxiv.org/abs/2404.16042v2

Gaussian Smoothing in Saliency Maps: The Stability-Fidelity Trade-Off in Neural Network Interpretability

https://arxiv.org/abs/2411.05837v2

What Makes for a Good Saliency Map? Comparing Strategies for Evaluating Saliency Maps in Explainable AI (XAI)

https://arxiv.org/abs/2504.17023v1