【学习笔记】对抗机器学习

Bosenya122024-03-09 15:11

Adversarial Machine Learning

机器学习系统中的攻击和防御

对抗环境下的无监督学习

在对抗环境下，无监督学习的两个常见用途是攻击聚类和异常检测。

强化学习

马尔可夫决策过程（Markov Decision Process，MDP）为强化学习（Reinforcement Learning，RL）提供数学基础。

对机器学习的攻击类型

沿着三个维度对攻击进行分类：时机、信息和目标。

在对攻击进行建模时，首先考虑的是攻击发生的时间。

这种考虑导致以下共同的二分法，这是对机器学习攻击的核心：

对模型的攻击（其中规避攻击是最典型的情况），对模型的攻击或者更准确地说，对所学模型做出决策的攻击，假设模型已经被学习，攻击者现在要么改变其行为，要么改变观察到的环境，以使模型做出错误的预测。

对算法的攻击（通过成为投毒攻击），投毒攻击发生在模型接受训练之前，修改了用于训练的部分数据。

对攻击进行建模的第二个重要的问题是，攻击者拥有关于学习模型或算法的哪些信息，这一区别通过被提炼为白盒攻击和黑盒攻击。

白盒攻击假定模型（在对决策进行攻击的情况下）或算法（在投毒攻击中）被对手完全了解；

黑盒攻击中对手对这些信息了解有限或没有，尽可能通过查询间接获得一些信息。

攻击者可能有不同的攻击原因，例如规避检测或者降低算法的可信度。

由此区分了两个类攻击目标：针对性攻击和对学习方法可靠性的攻击（简称可靠性攻击）。

在针对性攻击中，攻击者的目标是在特定性质的特定实例上造成错误。

可靠性攻击旨在通过最大化预测误差来降低学习系统的感知可靠性。