论文阅读--《Besting the Black-Box: Barrier Zones for Adversarial Example Defense》

好的，这是《Besting the Black-Box: Barrier Zones for Adversarial Example Defense》论文的中文翻译：

[文件名称]: Besting_the_Black-Box_Barrier_Zones_for_Adversarial_Example_Defense.pdf
[文件内容开始]

===== 第 1 页 =====

收稿日期：2021年10月13日，录用日期：2021年12月17日，发布日期：2021年12月27日，当前版本日期：2022年1月6日。

数字对象标识符 10.1109/ACCESS.2021.3138966

击败黑盒：用于对抗样本防御的屏障区

KALEEL MAHMOOD1^11, PHUONG HA NGUYEN2^22, LAM M. NGUYEN3^33, THANH NGUYEN4^44, AND MARTEN VAN DIJK5^55 (IEEE 高级会员)

1^11 康涅狄格大学电气与计算机工程系，美国康涅狄格州斯托尔斯市，邮编 06269
2^22 eBay 公司，美国加利福尼亚州圣何塞市，邮编 95125
3^33 IBM 研究院，托马斯·J·沃森研究中心，美国纽约州约克敦海茨市，邮编 10562
4^44 亚马逊公司，美国华盛顿州西雅图市，邮编 98109
5^55 荷兰阿姆斯特丹国家数学与计算机科学研究院 (CWI)，邮编 1098

通讯作者：Kaleel Mahmood (kaleel.mahmood@uconn.edu)

摘要对抗性机器学习防御主要集中于缓解静态的白盒攻击。然而，此类防御在自适应的黑盒对手下是否鲁棒仍然是一个悬而未决的问题。在本文中，我们特别关注黑盒威胁模型，并做出以下贡献：首先，我们开发了一种增强的自适应黑盒攻击，实验表明其比 Papernot 等人提出的原始自适应黑盒攻击有效 ≥30%\geq 30\%≥30%。作为我们的第二个贡献，我们使用我们的新攻击测试了 10 种近期防御方法，并提出了我们自己的黑盒防御（屏障区）。我们表明，基于屏障区的防御在安全性上相比最先进的防御方法提供了显著的改进。对于我们研究的数据集（CIFAR-10 和 Fashion-MNIST），这种改进包括对黑盒边界攻击、迁移攻击以及我们新的自适应黑盒攻击具有超过 85%85\%85% 的鲁棒精度。为完备起见，我们通过在两个数据集（CIFAR-10 和 Fashion-MNIST）上使用三种对抗模型（14 种不同的黑盒攻击）对其他 10 种防御进行广泛实验来验证我们的主张。

索引术语 对抗性机器学习，对抗样本，对抗防御，黑盒攻击，安全性，深度学习。

I 引言

基于卷积神经网络 (CNNs) 的应用有很多，例如图像分类 [1], [2]、目标检测 [3], [4]、语义分割 [5] 和视觉概念发现 [6]。然而，众所周知，CNNs 对添加到良性输入图像 xxx 上的微小扰动 η\etaη 高度敏感。如 [7], [8] 所示，通过向原始图像添加视觉上不可察觉的扰动，可以创建对抗样本 x′x'x′，即 x′=x+ηx' = x + \etax′=x+η。这些对抗样本会被 CNN 以高置信度错误分类。因此，使 CNNs 能够抵御此类攻击是一项极其重要的任务。

通常，对抗性机器学习攻击可分为白盒攻击或黑盒攻击。这种分类取决于运行攻击所需关于分类器的信息量。大多数文献集中于白盒攻击 [9]-[11]，其中分类器/防御参数是已知的。同样，大多数防御方法的设计目标也是挫败白盒攻击 [12]-[24]。在本文中，我们关注黑盒攻击，其中分类器参数是隐藏的或假定为秘密的。这种类型的对手

===== 第 2 页 =====

代表了比白盒攻击者更实际的威胁模型 [25]。这部分是因为对手无法访问分类器参数，但仍然能够成功创建对抗样本 [25, 26]。尽管没有防御参数，黑盒对手仍然可以查询防御，能够访问 X\mathcal{X}X（防御的训练数据集），或者构建一个合成模型来协助创建对抗样本。通过黑盒对抗视角分析防御，我们通过向社区提供新的攻击和防御视角来帮助完善安全图景。具体来说，我们做出以下贡献：

混合黑盒攻击： 我们通过扩展攻击者可用的数据量并改变最终攻击生成方法 ϕ\phiϕ，开发了 Papernot 黑盒攻击 [26] 的增强版本。这些改变显著提高了攻击成功率，即在 CIFAR-10 和 Fashion-MNIST 上提高了 >30%>30\%>30%。
屏障区防御： 我们基于屏障区（命名为 BARZ）开发了一种新颖的防御。我们表明基于屏障区的防御可以优于本文研究的其他 10 种近期防御方法。这些防御包括 Madry 的对抗训练 [27]、随机变换轰炸 [22] 和集成多样性 [24] 等。我们结果的概要如图 1 所示，其中我们展示了每种防御在所有 14 种黑盒攻击下的最小鲁棒精度。
δ\deltaδ 指标（次要贡献）： 在对抗性机器学习中，每种防御都涉及两个不同的值需要考虑。这些值是防御的成本（干净精度的下降）和鲁棒性/安全性（在对抗数据上的性能）。我们提出了一种直观的方法，以 δ\deltaδ 指标的形式来帮助衡量鲁棒性和成本之间的权衡。

附录 A 防御方法比较

图 1 显示了 BARZ 防御的鲁棒精度（定义为 1−α1-\alpha1−α，其中 α\alphaα 是 14 种黑盒攻击中效果最好的攻击成功率）与其他 10 种近期文献防御的比较。文献将攻击成功率 α\alphaα 定义为被防御错误分类的对抗样本的比例。在此，精确定义术语对抗样本也很重要。简而言之，对抗样本是干净的图像，在未篡改形式下被分类器正确识别，并且攻击者向其添加了对抗性噪声。

因此，仅使用攻击成功率 α\alphaα 并不能给出完整的图景（即图 1 中仅显示了 α\alphaα）。攻击成功率 α\alphaα 仅对应于防御分类器能够正确标记的原始图像的比例。本质上，对于任何给定的防御 ddd，α\alphaα 取决于防御的干净精度 pdp_dpd，而不是最先进的或可达到的最佳干净精度 ppp。这里 ppp 特指在没有任何防御的情况下在干净图像上测量的精度，即干净精度。当存在防御时，我们将该防御的相应干净精度表示为 pdp_dpd。因此，为了完整理解图 1 的故事，我们需要了解防御本身在多大程度上导致普通方案（vanilla scheme）的干净精度从 ppp 降低到 pdp_dpd。

沿着 (a) 鲁棒精度 1−α1-\alpha1−α（攻击者击败防御的能力）和 (b) 防御本身的干净精度 pdp_dpd（无对抗存在时）这两个独立的指标比较防御方法会导致模糊性。不清楚哪个指标被认为更重要，或者哪种组合是"最佳"的。表 1 的第一行描述了非恶意环境（即没有对手），并显示了普通方案（无防御）的精度 ppp（这是我们目前能达到的最佳精度），以及防御的精度 pdp_dpd（如上所述，pd<pp_d < ppd<p）。对于恶意环境，普通方案无法达到任何精度，因为 α=0\alpha=0α=0（见图 2 中的黑盒边界攻击）。这种类型的攻击总是能成功地将一个正确分类的图像转换成一个被普通方案错误分类的对抗样本。在存在对手的情况下，防御正确/准确分类的概率等于表 1 右下角的 pd⋅(1−α)p_d\cdot(1-\alpha)pd⋅(1−α)，因为如果没有对手存在，防御会正确标记一部分 pdp_dpd 的图像，而如果存在对手，这些图像中有一部分 α\alphaα 会被成功攻击。

为避免任何模糊性，我们将两个指标 pdp_dpd 和 1−α1-\alpha1−α 组合成一个单一的"δ\deltaδ-指标"：我们将 δ\deltaδ 定义为从非恶意环境（左上角）中普通方案的干净精度 ppp 到恶意环境中防御的精度 pd⋅(1−α)p_d\cdot(1-\alpha)pd⋅(1−α)（右下角）的精度下降：δ=p−pd⋅(1−α).\delta=p-p_d\cdot(1-\alpha).δ=p−pd⋅(1−α).

当我们分析非恶意环境时，我们只对防御的干净精度感兴趣------因为我们不假设任何攻击。这给出了图 2，其中 y 轴对应于非恶意环境中防御的精度 pdp_dpd，x 轴对应于恶意环境中防御的精度------即，x 轴表示从非恶意环境中普通方案的干净精度到恶意环境中防御精度的下降 δ\deltaδ（抵抗对抗样本的代价）。我们注意到 x 轴和 y 轴可以直接映射到防御干净精度 pdp_dpd 和鲁棒精度 1−α1-\alpha1−α 本身，我们本可以在图中将它们作为 x 轴和 y 轴报告。但这在视觉上无法清晰地表明在恶意环境中哪种组合 (pd,1−α)(p_d, 1-\alpha)(pd,1−α) 是最佳的。

===== 第 3 页 =====

图 2. 边界攻击的 δ 指标与干净精度 pd 的关系图。BARZ 结果以绿色显示，普通方案结果以灰色显示。

我们更倾向于绘制 δ 指标，因为它直接对应于恶意环境中防御分类器的（下降）精度。

在实践中，当评估一个防御时，我们不仅要考虑恶意环境中防御的精度 p−δp - \deltap−δ，还要考虑非恶意环境中防御的精度，即表 1 右上角给出的 pdp_dpd。从纯粹的机器学习角度来看，我们希望防御不会对 ppp 影响"太大"------换句话说，下降 γ=p−pd\gamma = p - p_dγ=p−pd 应该很小，仅限于几个百分点。然而，安全性通常不是免费的，为了最小化 δ\deltaδ，我们可能需要牺牲远超过几个百分点的精度。这意味着我们需要研究最小化 δ\deltaδ 与可接受的 pdp_dpd 之间的权衡。本文提出了这样一项研究，我们的防御 BARZ 旨在最小化 δ\deltaδ，尽管在非恶意环境中可能存在从 ppp 到 pd=p−γp_d = p - \gammapd=p−γ 的显著下降 γ\gammaγ。事实证明，这导致 BARZ 的鲁棒精度优于其他防御，如图 1 和图 2 所示。

B. 大纲

本文其余部分组织如下：在第二节中，我们讨论黑盒对手，解释为什么我们关注某些攻击以及我们新的混合黑盒攻击。在第三节中，我们讨论我们研究的防御方法、它们背后的安全原理以及为什么我们选择这些防御进行分析。在第四节中，我们介绍屏障区防御安全原理背后的数学直觉。我们在第四节讨论屏障区如何在实践中实现，并展示它们的经验证据。在第五节中，我们解释如何简洁地分析防御的效率。我们在第六节给出了所有 11 种防御和 14 种攻击的实验结果。最后，我们在第七节提供总结性评论。

II 攻击

在对抗性机器学习中，白盒和黑盒攻击的通用设置如下 [28]：我们假设一个训练好的分类器 fff 正确识别了一个样本 xxx，其类别标签为 yyy。对手的目标是通过某个量 η\etaη 修改 xxx，使得 f(x+η)f (x + \eta)f(x+η) 产生类别标签 y^\hat{y}y^。在非目标攻击的情况下，只要 y^≠y\hat{y} \neq yy^=y，攻击就被认为是成功的。在目标攻击的情况下，只有当 y^≠y\hat{y} \neq yy^=y 且 y^=t\hat{y} = ty^=t（其中 ttt 是攻击者指定的目标类别标签）时，攻击才算成功。对于非目标和目标攻击，通常限制 η\etaη 的幅度 [8]，以便人类仍然能够视觉识别图像。

白盒攻击和黑盒攻击的区别在于如何获得 η\etaη。在白盒攻击中，η\etaη 可以通过在分类器上反向传播计算，或者通过将攻击表述为考虑分类器训练参数的优化问题 [7], [11], [29]。白盒对手可以访问训练参数，这些参数可用于计算梯度------本质上，白盒对手可以访问梯度预言机（当被查询时输出梯度信息）。

另一方面，黑盒攻击在生成 η\etaη 时无法访问分类器的参数，必须依赖其他信息。黑盒对手可能有权访问分类器本身，查询时返回一个分数向量或分数最大的标签------我们称之为黑盒预言机。除了黑盒预言机，黑盒对手还可能拥有用于训练分类器的训练数据信息。

从密码学的角度来看，白盒对手严格强于黑盒对手，并且也拥有黑盒预言机的访问权。然而，我们常常忘记白盒对手已知的分类器参数不仅可以用来计算梯度预言机，还可以用来计算黑盒预言机。这是因为我们通常认为梯度信息会导致更强大的攻击，因此我们可能不需要考虑黑盒攻击。一个证明对仅使用梯度预言机的白盒攻击具有鲁棒性的防御，并不总是意味着对黑盒攻击也具有鲁棒性。梯度掩蔽（Gradient masking）使得防御可能对装备齐全的白盒对手产生错误的安全感 [10]，因为它只挫败了基于梯度预言机的白盒攻击。这表明，也需要单独测试无梯度攻击，例如黑盒攻击。

在本文中，我们关注利用自适应攻击 [26] 的黑盒对手。一个自然的问题是，为什么我们关注自适应的黑盒类型攻击？我们这样做有以下原因：

文献中已经对已发表防御的最先进白盒攻击进行了广泛研究 [9]--[11]。防御论文中对黑盒攻击的关注程度显著较低。通过关注黑盒攻击，我们力求完善安全图景。这个完整的安全图景意味着我们当前分析的防御不仅有其自身出版物中的白盒攻击结果，还有（如本文报告的）自适应黑盒结果。未来的防御可以在进行自身分析时，基于本文开发的安全概念和我们的实验进行构建。这个完善的安全范围将我们引向下一点。

===== 第 4 页 =====

攻击在防御论文中的关注度明显较低。通过关注黑盒攻击，我们力求完善安全图景。这个完整的安全图景意味着我们当前分析的防御不仅有其自身出版物中的白盒攻击结果，还有（如本文报告的）自适应黑盒结果。未来的防御可以在进行自身分析时，基于本文开发的安全概念和我们的实验进行构建。这个完善的安全范围将我们引向下一点。

1. 通过完善（包含黑盒攻击的）安全图景，我们允许读者比较防御结果。这种比较是可行的，因为对每种防御使用了相同的对抗模型、数据集和攻击。这与自适应白盒攻击完全不同，后者可能对每种攻击需要不同的对抗模型和不同的安全假设。例如，在 [9] 中，为了破解一个检测器防御（The Odds are Odd），在自适应白盒攻击中必须使用自定义目标函数才能达到高攻击成功率。或者，在集成模型防御（ADP [24]）上创建自适应白盒攻击则大不相同。唯一的要求是增加基于简单梯度的白盒攻击中使用的迭代次数，使攻击具有适应性和有效性。虽然我们例子中的两种自适应攻击都是白盒攻击，但后者（对 ADP 的自适应白盒攻击）在技术上只需要能够对模型进行反向传播。正如 [30] 所指出的，在不同对抗模型下比较两种防御的鲁棒性是不合适的。

黑盒攻击变体

纯黑盒攻击 [10, 31, 32, 33]

对手仅被给予一个训练数据集 X0\mathcal{X}_{0}X0 的知识。
基于预言机的黑盒攻击 [26]

攻击者无法访问原始训练数据集，但可以生成与训练数据相似的合成数据集 S0S_{0}S0。对手可以自适应地生成合成数据并查询防御 O\mathcal{O}O 以获得该数据的类别标签。然后使用合成数据集 S0S_{0}S0 来训练合成模型。重要的是要注意，对手无法访问整个原始训练数据集 X0\mathcal{X}_{0}X0。

在本文中，我们提出了这种攻击的一个新版本，我们称之为混合黑盒攻击 。在这种攻击中，对手被给予整个原始训练数据集、生成合成数据的能力以及查询防御以标记数据的权限。在我们的攻击中，对手还有多种不同的对抗生成方法 ϕ\phiϕ 可供选择来创建对抗样本。这样，对手可以训练一个行为更精确地反映防御行为的合成模型。简而言之，攻击者使合成模型适应防御。需要注意的是，此攻击的早期版本 [26] 不允许完全访问训练数据集 X0\mathcal{X}_{0}X0，并且对抗生成方法 ϕ\phiϕ 固定为快速梯度符号方法 (FGSM)。

实验上，我们表明混合黑盒攻击优于 Papernot 提出的原始攻击。我们的实验还表明，与边界攻击和纯黑盒攻击 [10, 25, 31, 32, 33, 34] 相比，混合黑盒攻击在某些类型的随机化防御上效果更好。混合黑盒攻击的伪代码在算法 III-A 中给出，并在第 II-B 节中解释。