1、前言
- 近年来,机器学习模型被广泛地应用到现实生活中的一些重要领域,如面部识别、自动驾驶、语言处理和智慧医疗等。
- 然而,机器学习模型就像一个黑盒子,给予一个输入,就能得到一个决策结果,但是我们并不知道模型是如何做决策的。
- 因此,可解释性旨在帮助人们理解机器学习模型是如何学习的,它从数据中学到了什么,针对每一个输入它为什么会做出如此决策以及它所做的决策是否可靠。
2、分类
- 事前可解释性
- 指在模型训练之前,通过模型本身的设计来提高模型的透明度。
- 事后可解释性
- 指在模型训练完成后,通过各种技术来理解模型的工作原理和预测依据。
- 分类:全局可解释性 和局部可解释性 。
- 全局可解释性:旨在帮助人们理解复杂模型背后的整体逻辑以及内部的工作机制。
- 局部可解释性:旨在帮助人们理解机器学习模型针对每一个输入样本的决策过程和决策依据。
3、事前可解释性
- 事前可解释性指模型本身内置可解释性,即对于一个已训练好的学习模型,无需额外的信息 就可以理解模型的决策过程或决策依据。模型的事前可解释性发生在模型训练之前,因而也称 为事前可解释性。
4、事后可解释性
- 事后可解释性发生在模型训练之后。对于一个给定的训练好的学习模型,事后可解释性旨在利用解释方法或构建解释模型,解释学习模型的工作机制、决策行为和决策依据。
4.1、全局可解释性
- 全局可解释性旨在帮助人们从整体上理解模型背后的复杂逻辑以及内部的工作机制,例如模型是如何学习的、模型从训练数据中学到了什么、模型是如何进行决策的等。
- 这要求我们能以人类可理解的方式来表示一个训练好的复杂学习模型,典型的全局解释方法包括规则提取、 模型蒸馏、激活最大化解释等。
- 例如:
- 从已经训练好的模型中,理解模型中的神经元所捕获的特征,以我们能够理解的形式表示出来。
4.2、局部可解释性
- 局部可解释性旨在帮助人们理解学习模型针对每一个特定输入样本的决策过程和决策依据。
- 与全局可解释性不同,模型的局部可解释性以输入样本为导向,通常可以通过分析输入样本 的每一维特征对模型最终决策结果的贡献来实现。
- 在实际应用中,由于模型算法的不透明性、模型结构的复杂性以及应用场景的多元性,提供对机器学习模型的全局解释通常比提供局部解释更困难,因而针对模型局部可解释性的研究更加广泛,局部解释方法相对于全局解释方法也更常见。
- 经典的局部解释方法包括敏感性分析解释、局部近似解释、梯度反向传播解释、特征反演解释以及类激活映射解释等。
- 例如:
- 通过删除或替换输入中的特征,分析输入中特征对于输出的重要性,得到特征重要度向量(衡量特征重要性的表现形式),即模型会根据哪些特征做出决策。