[论文阅读]Enhanced Membership Inference Attacks against Machine Learning Models

Enhanced Membership Inference Attacks against Machine Learning Models

针对机器学习模型的增强型成员推理攻击

Enhanced Membership Inference Attacks against Machine Learning Models | Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security

摘要

在本文中，我们提出了一个全面的假设检验框架，该框架不仅使我们能够以一致的方式正式表达之前的工作，而且还设计了新的成员推理攻击，该攻击使用参考模型来实现任何（假阳性率）误差的显着更高的功效（真阳性率）。更重要的是，我们解释了为什么不同的攻击执行方式不同。我们提供了一个不可区分游戏的模板，并提供了游戏不同实例的攻击成功率的解释。我们讨论了问题制定过程中出现的攻击者的各种不确定性，并展示了我们的方法如何尝试将攻击不确定性降至最低，直到训练集中是否存在数据点的一点秘密。我们对所有类型的攻击进行了差异分析，解释了它们之间的差距，并揭示了导致数据点容易受到攻击的原因（因为原因因记忆的粒度不同而不同，从过度拟合到条件记忆）。我们的审计框架作为 Privacy Meter 软件工具的一部分公开访问。

攻击框架

目标是设计一个框架，能够在黑盒设置（其中只有模型输出）中审计机器学习模型关于特定记录的隐私丢失。该框架有三个要素：（i）作为评估设置的推理游戏;（ii）衡量隐私风险的不可区分性指标，以及（iii）将成员推理攻击构建为假设检验。我们框架背后的隐私概念主要基于差分隐私，并且该框架的多个部分是针对机器学习算法的现有推理攻击的泛化。在构建和评估成员资格推理攻击时，我们介绍了游戏的重要设计选择，以便对不同类型的隐私丢失进行更精确的隐私审计。

方法概述

论文提出了一种基于假设检验的成员推断攻击框架，核心在于优化攻击的成功率和准确性。具体而言，该框架包括以下几个关键步骤：

1. 推断游戏（Inference Game）

攻击者与挑战者的对抗：设计了一个挑战者与攻击者之间的推断游戏。在游戏中，挑战者随机选择某个数据点，然后构造两个世界：一个包含目标数据点（成员），另一个不包含（非成员）。攻击者通过观察模型输出来判断数据点是否属于训练集。
不同的游戏设置：作者构建了不同类型的推断游戏，以评估模型在"平均数据点"或"特定数据点"上的隐私泄露。这样可以分别评估模型对一般数据的隐私风险和对特殊数据点的隐私风险。

2. 不可区分性度量（Indistinguishability Metric）

定义隐私风险：作者使用不可区分性度量（类似于差分隐私中的概念），定义了模型对特定数据点的隐私泄露程度。隐私泄露被定义为模型是否能够被攻击者区分出是否包含特定数据点。
假设检验：攻击者的目标是通过假设检验来区分两个假设，即数据点是成员或非成员。通过调整检验的阈值，可以控制假阳性率（FPR）和真阳性率（TPR），从而获得更强的攻击策略。

3. 攻击策略的优化

基于损失的攻击：论文聚焦于基于损失值的攻击方法，通过比较模型对特定数据点的损失值来推断其成员关系。
改进的攻击方法：论文提出了几种新的攻击方法，包括基于模型依赖和样本依赖的攻击，这些方法能够更好地利用模型和数据点的信息，以提高攻击的准确性。

具体攻击方法

论文设计了四种不同的攻击策略，每种策略逐步增加对模型和数据点信息的依赖，以增强攻击效果：

1. Attack S: 基于影子模型的攻击

使用影子模型方法，训练多个与目标模型类似的模型（称为影子模型）来估计目标模型的行为。通过影子模型的损失分布来设定攻击阈值。
优点是计算效率高，但无法针对特定模型和数据点进行优化。

2. Attack P: 基于模型的攻击

针对特定模型计算损失阈值，而不是使用通用的影子模型。该方法利用了目标模型的特定信息，提高了攻击的准确性。
该方法不需要训练多个影子模型，而是直接对目标模型使用随机数据点估计分布，减少了计算成本。

3. Attack R: 基于样本的攻击

针对目标数据点使用参考模型生成样本特定的损失阈值。通过在多个参考模型上测试目标数据点的损失值分布来确定其阈值。
这种方法对特定数据点的隐私泄露进行了细粒度分析，更准确地识别出了"易受攻击"的数据点。

4. Attack D: 基于自蒸馏的攻击

结合模型和数据点的信息，通过一种称为自蒸馏的技术来生成更接近目标模型的参考模型。这些参考模型对目标模型的训练集进行了近似重构，从而进一步增强了攻击的效果。
该攻击方法比前述策略更强，能够更精确地判断特定数据点的成员关系。

通过实验评估了不同攻击方法的性能，以下是主要的实验发现：

攻击成功率对比：在不同的假阳性率下，Attack D的攻击效果最佳，能够达到较高的真阳性率，尤其在低假阳性率的情况下表现突出。
特定数据点的易受攻击性：不同攻击方法在检测特定"易受攻击"数据点时表现出差异。Attack R和Attack D在识别这些数据点时具有更高的成功率，表明它们能够更有效地捕捉模型对特定数据点的记忆性。
攻击阈值的依赖性：实验结果显示，随着攻击方法逐步增加对模型和数据点信息的依赖，攻击阈值的精确性也随之提高，从而形成更尖锐的攻击信号，有助于提高预测准确性。

该论文通过提出的增强型成员推断攻击框架，有效地提升了成员推断攻击的准确性，尤其在特定数据点上的隐私泄露评估更加细致。作者的工作展示了模型对特定数据点的记忆性如何影响隐私风险，并提供了评估模型隐私风险的新方法。

未来的研究方向包括进一步优化基于自蒸馏的攻击方法，以降低计算成本，并探索更多防御策略以抵御这些增强的成员推断攻击。