基于Saliency Map对LLM进行可解释性分析

将显著性图(Saliency Map)应用于大语言模型(LLM)的黑盒可解释性分析。

核心在于在无法获取模型内部梯度的情况下,依然能够生成反映模型决策依据的热力图。

这里基于网络资料,尝试探索基于显著图对LLM可解释性进行分析的方法。

1 传统方法为何失效

传统基于梯度的显著性图方法(如SmoothGrad、Integrated Gradients),因其坚实理论基础和良好性能,被广泛用于解释深度神经网络的决策。

这种方法在分析像GPT-4、Claude类似的闭源LLM时遇到了根本性障碍。

1)梯度不可访问

这些模型通常只提供API接口,用户只能发送请求并获取输出,无法通过反向传播计算输出对输入的梯度。

2)模型结构未知

黑盒模型的内部架构(如层数、注意力头数、激活函数)是完全不可见的,这使得任何依赖模型内部信息的白盒方法都无从下手。

3)输出的离散性

LLM的输出通常是离散的文本token,而非连续的数值概率,这给需要连续目标值进行梯度计算的传统方法带来了挑战。

2 显著性图的生成方法

为了解决上述挑战,研究人员提出了多种在黑盒设定下生成显著性图的替代方案。

这些方法主要分为两大类:基于梯度估计和基于输入扰动

2.1 基于梯度估计

通过零阶优化(Zeroth-order Optimization)的方法,在不访问计算图的情况下近似估计梯度。

代表技术是似然比方法,通过向输入引入噪声,并观察输出的变化来无偏估计梯度。

能够复用成熟的梯度显著性图理论;在GPT-Vision等模型上已展现出应用潜力。

但梯度估计方差大,尤其是在图像等高维输入上;需要精巧的设计(如分块计算)来提升精度。

2.2 基于输入扰动

通过系统地扰动输入(如遮盖或修改输入token/像素),观察输出变化,从而判断输入各部分的重要性。

代表方法是差分进化(DE-CAM),使用进化算法搜索对模型输出影响最大的像素组合。

真正的模型无关,仅需模型输出;原理直观,易于理解。 |

但计算成本极高,因为需要对每个扰动进行完整的模型前向推理,在高维输入上尤其明显。

3 似然比方法

以似然比方法研究为例,探索黑盒显著性图生成框架。

https://ar5iv.labs.arxiv.org/html/2403.15603

该方法的核心在于绕过反向传播,通过前向学习来估计梯度。

1)梯度估计

它采用似然比方法来解决黑盒梯度估计问题。

简单来说,通过对输入添加特定的随机噪声,可以将原本需要链式法则的梯度计算问题,转化为一个可以通过多次前向推理和加权求和来解决的期望问题,从而得到梯度的无偏估计。

2)提升精度针

对高维输入带来的高方差问题,该方法引入了分块计算技术。它将输入分割成多个小块,分别估计每个块的梯度,然后进行组合。这显著提升了梯度估计的准确性,进而生成更清晰的显著性图。

3)定义目标

对于LLM的离散文本输出,如何定义梯度计算的目标也是一个难题。该研究探讨了使用最邻近路径距离或语义距离等指标,将离散的文本输出转化为连续的、可度量的目标分数。

4 前沿探索

上述似然比方法框架已被成功应用于解释GPT-Vision的决策。通过分析模型对一张图片的响应,该方法生成的显著性图能够揭示图片中的哪些区域是模型做出判断的关键依据,从而在完全黑盒的情况下窥探模型的视觉注意力。

但局限与挑战依然存在,当前方法仍处于研究初期。有评论指出,现有评估多基于小型数据集和有限模型,其结论可能存在偏差。此外,梯度估计的方差问题和扰动方法的计算效率问题仍是实用化的主要障碍。

另外,除了基于显著图的探索输入的影响方法,前沿研究开始关注更深层次的解释。

比如,小波归因方法(WAM)尝试在保留结构信息的小波域而非像素域进行归因,以揭示模型关注的是纹理还是边缘等结构性特征。

https://arxiv.org/html/2410.01482

对于视觉-语言模型,像大海捞针(Needle-in-a-Patched-Haystack)这样的评估套件也在被开发出来,用于更严格地检验显著性图的可靠性和定位能力。

https://icml.cc/virtual/2025/49601

reference


Forward Learning for Gradient-based Black-box Saliency Map Generation

https://ar5iv.labs.arxiv.org/html/2403.15603

One Wave To Explain Them All: A Unifying Perspective On Feature Attribution

https://arxiv.org/html/2410.01482

Needle in a Patched Haystack: Evaluating Saliency Maps for Vision LLMs.

https://icml.cc/virtual/2025/49601

Retina-Inspired Models Enhance Visual Saliency Prediction

https://pmc.ncbi.nlm.nih.gov/articles/PMC12026020/

Saliency Maps Give a False Sense of Explanability to Image Classifiers: An Empirical Evaluation across Methods and Metrics

https://proceedings.mlr.press/v260/zhang25a.html

Language-Visual Saliency with CLIP and OpenVINO™​​​​​​¶

https://docs.openvino.ai/2023.3/notebooks/232-clip-language-saliency-map-with-output.html

How explainable AI affects human performance: A systematic review of the behavioural consequences of saliency maps

https://www.arxiv.org/abs/2404.16042v2

Gaussian Smoothing in Saliency Maps: The Stability-Fidelity Trade-Off in Neural Network Interpretability

https://arxiv.org/abs/2411.05837v2

What Makes for a Good Saliency Map? Comparing Strategies for Evaluating Saliency Maps in Explainable AI (XAI)

https://arxiv.org/abs/2504.17023v1

相关推荐
盟接之桥1 小时前
盟接之桥说制造:从客供的外在共生到内在的身心合一
运维·服务器·网络·人工智能·制造
RoyLin2 小时前
你的 nginx 在扼杀 AI 服务——为什么需要重新设计流量层
人工智能·devops
yunhuibin2 小时前
NIN网络学习
人工智能·python·深度学习·神经网络·学习
王解2 小时前
第八篇:内外兼修 —— 配置系统与日志监控
人工智能·ai agent·nanobot
zhangshuang-peta2 小时前
人工智能代理的上下文管理突破与长期任务执行
人工智能·ai agent·mcp·peta
隔壁大炮2 小时前
03.深度学习——特点
人工智能·深度学习
两万五千个小时3 小时前
构建mini Claude Code:02 - 把 Bash 拆成专用工具(read_file, write_file 等)
人工智能·python
~央千澈~3 小时前
06实战处理AI音乐技术详解第一阶段:频谱破坏·卓伊凡
人工智能
Hcoco_me3 小时前
车载摄像头核心知识点结构化总结
人工智能·深度学习·数码相机·算法·机器学习·自动驾驶