[论文阅读]Label-Only Membership Inference Attacks

Label-Only Membership Inference Attacks

Proceedings of the 38th International Conference on Machine Learning

Label-Only Membership Inference Attacks

只使用硬标签就可以判断是否是成员的方法,但是是在机器学习模型上。

通过分析模型在扰动下的预测标签的变化来获得细粒度的成员信号。

引入了仅限标签的 MI 攻击。我们的攻击更普遍:对手只需要获得训练模型的(硬)标签,而没有预测置信度。这种威胁模型更现实,因为部署在面向用户的产品中的 ML 模型不需要公开原始置信度分数。因此,我们的攻击可以安装在任何 ML 分类器上。

在仅标注设置中,朴素基线将错误分类的点预测为非成员。我们的重点是超越这一基线。为此,我们将不得不对目标模型进行多次查询。我们展示了如何通过分析模型对目标数据扰动的鲁棒性来提取细粒度的 MI 信号,从而揭示其决策边界几何的特征。我们的对手在模型中查询数据点增强(例如,视觉域中的翻译)的预测标签以及对抗性示例。

我们做出以下贡献。在 § 5.1 中,我们介绍了第一个仅标签攻击,它与 confidencevector 攻击相匹配。通过将它们结合起来,我们的表现优于所有其他工作。在 § 5.2、5.3 和 5.4 中,我们表明置信度掩蔽不是防止隐私泄露的可行防御措施 ,通过打破使用它的两个规范防御措施------MemGuard 和 Adversarial Regularization.在§ 6,我们评估了两种减少过拟合的附加技术:数据增强和迁移学习。我们发现数据增强可以加剧 MI 泄漏,而迁移学习可以减轻它。在第 7 节中,我们引入了"异常值 MI":防御应满足的更强属性,以保护最坏情况下输入的 MI;目前,差分私人训练和(强)L2 正则化似乎是唯一有效的防御措施。我们的代码可在 https://github.com/cchoquette/membership-inference 获取。

攻击模型的设计

我们提出的 MI 攻击通过以下方式改进了现有攻击:(1)将多个策略性扰动样本(查询)结合起来,作为模型决策边界的细粒度信号;(2)在纯标签机制下运行。因此,我们的攻击对任何可查询的 ML 服务都构成了威胁。

1、朴素基线:Gap攻击

纯标签 MI 攻击面临着粒度 的挑战。对于任何查询 x,我们攻击模型的信息仅限于预测的类标签 argmaxi h(x)i。一个简单的基线攻击(Yeom 等人,2018)--将任何分类错误的数据点预测为训练集的非成员--是一个有用的基准,可用于评估 MI 攻击(仅标签攻击或其他攻击)所能提取的额外(非微小)信息。 我们称这种基线为差距攻击,因为它的准确性与模型在训练数据(acctrain)上的准确性和训练数据(acctest)上的准确性之间的差距直接相关:

2.攻击直觉

策略是通过评估模型对 x 的策略输入扰动的稳健性,无论是合成的(即数据增强)还是对抗的(示例),来计算模型信心的仅标签 "代理" 。

预测表现出高稳健性的数据点是训练数据点

对抗性示例文献中的工作具有类似的观点,即非训练点更接近决策边界,因此更容易受到扰动

我们对利用稳健性的直觉是双重的。首先,用数据增强训练的模型有能力过拟合它们 。因此,我们通过评估 x 及其增强来评估增强数据集上任何 "有效 "的训练测试差距,从而为我们提供更精细的 MI 信号。对于未使用增强进行训练的模型,它们对扰动的鲁棒性可以作为模型置信度的代理。给定(二进制)逻辑回归模型的特殊情况,使用学习的权重向量 w 和偏差 b,模型将输出以下形式的正类的置信度分数:h(x) := σ(w x + b),其中 σ(t) = 1 / 1+e -t ∈ (0, 1) 是逻辑函数。在这里,x 处的置信度与到模型决策边界的欧几里得距离之间存在单调关系。这个距离是 (w x + b)/||w||2 = σ -1 (h(x))/||w||2 .因此,获取点到边界的距离会产生与置信度分数相同的信息。

计算这个距离正是找到最小对抗性扰动的问题,这可以通过对分类器的仅标签访问来完成。我们的论点是,这种关系将在深度非线性模型中持续存在。该论点得到了先前工作的支持,该工作表明深度神经网络可以通过数据附近的线性函数紧密近似(Goodfellow et al., 2014)。

总结:如果数据x是成员数据,那么对x做数据增强,得到x',x'经过机器学习模型后的输出y'应该和x的输出y 比较相似,也就是说经过数据增强后模型的鲁棒性差异不大。

3.数据增强

给定目标点 (x0, ytrue),如果 x0 是训练成员,对手会训练 f 输出 f (x0, h) = 1。为此,他们假定知道目标模型的架构和训练数据分布,在源(或 "影子")模型上调整 f 以最大化 MI 准确率。 然后,他们通过查询黑盒模型 h 来 "转移 "f 以执行 MI。使用x0,我们创建了额外的数据点{x^1,..., xˆN }。我们查询目标模型 h(调谐中的ˆh)以获得标签 (y0, y1, ... , yN ) ← (h(x), h(xˆ1), ... h(xˆN )) 。 让 bi ←Ⅱ (ytrue = (yi))成为第 i 个查询点是否被错误分类的指示函数。最后,我们应用 f (b0, ... , bN ) → {0, 1} 对 x0 进行分类。 我们在计算机视觉领域尝试了两种常见的数据增强方法:图像旋转和平移。 对于旋转,我们生成 N = 3 幅图像,在 r∈[1, 15] 的情况下旋转幅度为 ±r◦。对于平移,我们生成 N = 4d+1 张平移图像,满足像素边界 d 的 |i|+|j| = d,其中水平平移 ±i,垂直平移 ±j。在这两种情况下,我们都包含源图像。

4.决策边界距离

这些攻击使用到模型决策边界的点距离来预测成员资格。在这里,我们将这个距离可以作为线性模型置信度的代理的直觉扩展到深度神经网络。

回想一下,置信度阈值攻击可以预测高度置信度的样本作为成员(Salem et al., 2018)。给定一个点到模型边界的 L2 距离的一些估计值 dist h (x, y),如果某个阈值 τ 的 dist h (x, y) > τ,我们预测 x 是一个成员。我们为错误分类的点定义 dist h (x, y) = 0,其中 argmax i h(x) i ≠ y,因为不需要扰动。我们在阴影 ĥi 上调整 τ ,发现即使是粗略的估计,例如高斯噪声,也可以导致几乎可比的攻击(见 § 5.5)。我们现在讨论估计 dist(x, y) 的方法。

White-Box Baseline 用于估计 dist(x, y),是一种理想化的 White-Box 攻击,因此不仅仅是标签攻击。我们使用由Carlini和Wagner攻击(Carlini & Wagner,2017)生成的对抗性示例:给定(x,y)攻击试图在欧几里得范数中找到离x最近的点x',使得argmax h(x')≠ y。

仅标签攻击仅使用黑盒访问。我们依赖于仅标签对抗性示例攻击。这些攻击从一个被错误分类的随机点 x' 开始,即 h(x' )≠ y.然后他们沿着边界 "走 ",同时最小化到 x 的距离.我们使用 "HopSkipJump" (Chen et al., 2019),它与更强的白盒攻击非常接近。

对随机噪声的鲁棒性是一种基于随机扰动的更简单的方法。同样,我们的直觉源于线性模型:当一个点受到各向同性高斯噪声的扰动时,点到边界的距离与模型的准确性直接相关(Ford et al., 2019)。我们通过评估 h 在 N个点 x^i = x + N (0, σ 2 • I) 上的准确性来计算 d h (x, y) 的代理,其中 σ 在 ĥ 上调整。对于二进制特征,我们改用伯努利噪声:每个 x j ∈ x 都以概率 p 翻转,该概率在 ĥ 上调整。

可以组合许多稳健性信号来提高攻击性能。我们评估 d h (x, y) 对 § 3.3 中 x 的增强。我们只在指示时评估此攻击,因为它的查询成本很高(参见 § 5.5)。

攻击目标(Attack Objective):在攻击模型设计中,作者的目标是通过仅观察预测模型的输出标签来推断这个数据点是否被用于模型训练。攻击者不需要访问模型的概率标签或其他额外信息,仅根据模型预测的硬标签进行成员推断攻击。

攻击步骤(Attack Procedure):攻击模型的设计包括以下主要步骤:

  1. 数据预处理:首先,攻击者通过模型访问接口获取硬标签,并对标签数据进行预处理,包括标准化、降噪等操作。
  2. 特征提取:接着,攻击者从预处理后的标签数据中提取特征,以便用于攻击模型的训练。
  3. 攻击模型训练:使用提取的特征,攻击者训练一个二元分类器,该分类器可以预测给定数据点是否为模型的成员。
  4. 成员推断:最后,攻击者使用训练好的分类器对目标数据点进行成员推断,判断这个数据点是否被用于模型训练。

实验设置和评估(Experimental Setup and Evaluation):在这一部分,作者描述了他们的实验设置,包括使用的数据集、攻击目标模型以及评估指标。作者还详细介绍了他们如何评估攻击模型的准确性、召回率和其他性能指标,并与其他成员推断攻击方法进行比较。

攻击成功的条件:最后,作者总结了攻击成功的条件,即在哪些情况下攻击模型可以准确地推断数据点的成员资格,并分析了对抗性训练、隐私度量和其他因素对攻击性能的影响。

通过这些步骤和实验结果,作者展示了他们提出的仅标签成员推断攻击方法的有效性和实用性,以及在真实情况下可能面临的挑战和局限性。这一部分为读者提供了对攻击模型设计和实现的深入理解,以及对隐私保护的重要性和需要采取的防御策略的启示。

相关推荐
清风吹过2 天前
LSTM新架构论文分享6:LSTM+Transformer融合
论文阅读·人工智能·深度学习·神经网络·lstm·transformer
DuHz2 天前
汽车角雷达波形设计与速度模糊解决方法研究——论文阅读
论文阅读·物联网·算法·汽车·信息与通信·信号处理
有点不太正常2 天前
Differentially Private Synthetic Text Generation for RAG——论文阅读
论文阅读·大模型·llm·rag
DuHz2 天前
基于多普勒频率和距离变化率联合测量的增强型速度估计方法——论文阅读
论文阅读·目标检测·汽车·信息与通信·信号处理
墨绿色的摆渡人2 天前
论文笔记(九十三)ManipulationNet: Benchmarking
论文阅读
bylander2 天前
【论文阅读】REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
论文阅读·语言模型·智能体
吃吃今天努力学习了吗3 天前
【论文阅读】Segment Any 3D Gaussians
论文阅读·3d·3dgs·三维分割
MoyiTech3 天前
【论文阅读】LANGUAGE MODELS CAN LEARN FROM VERBAL FEEDBACK WITHOUT SCALAR REWARDS
论文阅读·人工智能·语言模型
红苕稀饭6663 天前
LLaVA-OneVision论文阅读
论文阅读
CV-杨帆3 天前
论文阅读:arxiv 2025 Scaling Laws for Differentially Private Language Models
论文阅读·人工智能·语言模型