【论文阅读】-《Besting the Black-Box: Barrier Zones for Adversarial Example Defense》

战胜黑盒：用于对抗样本防御的屏障区

摘要对抗性机器学习防御主要集中于缓解静态的白盒攻击。然而，此类防御在自适应的黑盒对手下是否鲁棒仍然是一个悬而未决的问题。在本文中，我们特别关注黑盒威胁模型，并做出以下贡献：首先，我们开发了一种增强的自适应黑盒攻击，实验表明其比 Papernot 等人提出的原始自适应黑盒攻击有效性提高 ≥30%\geq 30\%≥30%。作为我们的第二个贡献，我们使用我们的新攻击测试了 10 种近期提出的防御方法，并提出了我们自己的黑盒防御（屏障区）。我们表明，基于屏障区的防御在最先进的防御基础上提供了显著的安全改进。对于我们研究的数据集，这种改进包括针对黑盒边界攻击、迁移攻击和我们新的自适应黑盒攻击，鲁棒准确率大于 85%85\%85%。为了完整性，我们通过在两个数据集（CIFAR-10 和 Fashion-MNIST）上使用三种对抗模型（14 种不同的黑盒攻击）对其他 10 种防御进行广泛实验来验证我们的主张。

索引术语 对抗性机器学习，对抗样本，对抗防御，黑盒攻击，安全，深度学习。

I 引言

基于卷积神经网络 (CNN) 的应用有很多，例如图像分类 [1], [2], 目标检测 [3], [4], 语义分割 [5] 和视觉概念发现 [6]。然而，众所周知，CNN 对添加到良性输入图像 xxx 上的微小扰动 η\etaη 高度敏感。如 [7], [8] 所示，通过向原始图像添加视觉上难以察觉的扰动，可以创建对抗样本 x′x'x′，即 x′=x+ηx' = x + \etax′=x+η。这些对抗样本会被 CNN 以高置信度错误分类。因此，保护 CNN 免受此类攻击是一项极其重要的任务。

通常，对抗性机器学习攻击可分为白盒攻击或黑盒攻击。这种分类取决于运行攻击需要多少关于分类器的信息。大多数文献都集中在白盒攻击 [9]-[11] 上，即分类器/防御参数是已知的。同样，大多数防御措施的设计目标也是挫败白盒攻击 [12]-[24]。在本文中，我们关注黑盒攻击，其中分类器参数是隐藏的或假定为保密的。这种类型的对手代表了比白盒攻击者更实用的威胁模型 [25]。这部分是因为对手无法访问分类器参数，但仍然能够成功创建对抗样本 [25, 26]。尽管没有防御参数，黑盒对手仍然可以查询防御，能够访问 X\mathcal{X}X（防御的训练数据集），或者构建一个合成模型来协助他们创建对抗样本。通过黑盒对抗视角分析防御，我们通过向社区提供新的攻击和防御视角来帮助完善安全图景。具体来说，我们做出以下贡献：

混合黑盒攻击 ：我们通过扩展攻击者可用的数据量并更改最终攻击生成方法 ϕ\phiϕ，开发了 Papernot 黑盒攻击 [26] 的增强版本。这些更改显著提高了攻击成功率，即在 CIFAR-10 和 Fashion-MNIST 上改进 >30%>30\%>30%。
屏障区防御：我们开发了一种基于屏障区的新颖防御------命名为 BARZ。我们展示了基于屏障区的防御可以优于本文中研究的所有其他 10 种近期防御。这些防御包括 Madry 的对抗训练 [27]、随机变换轰炸 [22] 和集成多样性 [24] 等。我们结果的概要显示在图 1 中，其中我们展示了每种防御在所有 14 种黑盒攻击下的最低鲁棒准确率。
δ\deltaδ 度量（次要贡献） ：在对抗性机器学习中，每种防御都有两个不同的值需要考虑。这些值是防御的成本（干净准确率的下降）和鲁棒性/安全性（在对抗数据上的性能）。我们提出了一种直观的方法，以 δ\deltaδ 度量的形式来帮助衡量鲁棒性和成本之间的权衡。

附录 A 比较防御

图 1 显示了 BARZ 防御的鲁棒准确率（定义为 1−α1-\alpha1−α，其中 α\alphaα 是 14 种黑盒攻击中最佳攻击的成功率）与文献中其他 10 种近期防御的比较。文献将攻击成功率 α\alphaα 定义为被防御错误分类的对抗样本的比例。在这里，精确定义 对抗样本 一词也很重要。简而言之，对抗样本是干净图像，在其未被篡改的形式下能被分类器正确识别，并且攻击者进一步向其添加了对抗性噪声。

因此，仅使用攻击成功率 α\alphaα 并不能给出完整的图景（即图 1 中仅显示了 α\alphaα）。攻击成功率 α\alphaα 仅对应于防御分类器能够正确标记的原始图像的比例。本质上，对于任何给定的防御 ddd，α\alphaα 取决于防御的干净准确率 pdp_dpd，而不是最先进的或可实现的最佳干净准确率 ppp。这里 ppp 特指在没有任何防御的情况下，在干净图像上测量的准确率，即干净准确率。当存在防御时，我们将防御对应的干净准确率表示为 pdp_dpd。因此，为了完成图 1 的故事，我们需要了解防御本身在多大程度上导致原始方案（vanilla scheme）的干净准确率从 ppp 降低到 pdp_dpd。

沿着 (a) 鲁棒准确率 1−α1-\alpha1−α（攻击者击败防御的能力）和 (b) 防御本身的干净准确率 pdp_dpd（没有对抗存在时）这两个独立的指标比较防御会导致模糊性。不清楚哪个指标被认为更重要，或者什么组合是"最好的"。表 1 的第一行描述了非恶意环境（即没有对手），并显示了原始方案（vanilla scheme）的准确率 ppp，这是我们目前能达到的最佳水平，以及防御的准确率 pdp_dpd，如上所述，它小于 ppp。对于恶意环境，原始方案无法实现任何准确率，因为 α=0\alpha=0α=0（参见图 2 中的黑盒边界攻击）。这种攻击总是可以成功地将正确分类的图像转换为被原始方案错误分类的对抗样本。在存在对手的情况下，防御进行正确/准确分类的概率等于表 1 右下角的 pd⋅(1−α)p_d\cdot(1-\alpha)pd⋅(1−α)，因为如果没有对手存在，防御会正确标记 pdp_dpd 比例的图像，而如果存在对手，这些图像中有 α\alphaα 比例被成功攻击。

为了避免任何模糊性，我们将两个指标 pdp_dpd 和 1−α1-\alpha1−α 组合成一个单一的 'δ\deltaδ-metric'：我们将 δ\deltaδ 定义为从非恶意环境中原始方案的干净准确率 ppp（左上角）到恶意环境中防御的准确率 pd⋅(1−α)p_d\cdot(1-\alpha)pd⋅(1−α)（右下角）的准确率下降：

δ=p−pd⋅(1−α).\delta=p-p_d\cdot(1-\alpha).δ=p−pd⋅(1−α).

当我们分析非恶意环境时，我们只关心防御的干净准确率------因为我们不假设任何攻击。这就得到了图 2，其中 yyy 轴对应于非恶意环境中防御的准确率 pdp_dpd，x 轴对应于恶意环境中防御的准确率------也就是说，x 轴表示从非恶意环境中原始方案的干净准确率到恶意环境中防御的准确率的下降 δ\deltaδ（抵抗对抗样本的代价）。我们注意到 x 轴和 y 轴可以直接映射到干净防御准确率 pdp_dpd 和鲁棒准确率 1−α1-\alpha1−α 本身，我们本可以在图中将它们报告为 x 轴和 y 轴。但这在视觉上无法清晰地说明哪种组合 (pd,1−α)(p_d, 1-\alpha)(pd,1−α) 在图 2. 边界攻击的 δ 度量与干净准确率 pd 的关系。BARZ 结果以绿色显示，原始方案（vanilla）结果以灰色显示。

恶意环境中是最好的。我们更倾向于绘制 δ 度量，因为这直接对应于恶意环境中防御分类器的（下降的）准确率。

在实践中，评估防御时，我们不仅考虑恶意环境中防御的准确率 p−δp -\deltap−δ，还考虑非恶意环境中防御的准确率，即表 1 右上角的 pdp_dpd。从纯机器学习的角度来看，我们希望一个防御不会对 ppp 影响"太大"------换句话说，下降 γ=p−pd\gamma = p -p_dγ=p−pd 应该很小，仅限于几个百分点。然而，安全性通常不是免费的，为了最小化 δ\deltaδ，我们可能需要牺牲远不止几个百分点。这意味着我们需要研究最小化 δ\deltaδ 和可接受的 pdp_dpd 之间的权衡。本文提出了这样一项研究，我们的防御 BARZ 旨在最小化 δ\deltaδ，尽管在非恶意环境中从 ppp 到 pd=p−γp_d = p -\gammapd=p−γ 可能存在显著的下降 γ\gammaγ。事实证明，这导致 BARZ 的鲁棒准确率优于其他防御，如图 1 和图 2 所示。

B. 大纲

论文的其余部分组织如下：在第二部分，我们讨论黑盒对手，为什么我们关注某些攻击以及我们新的混合黑盒攻击。在第三部分，我们讨论我们研究的防御、其背后的安全原理以及为什么我们选择这些防御进行分析。在第四部分，我们介绍屏障区防御背后安全原理的数学直觉。我们在第四部分还讨论了屏障区在实践中如何实现，并展示了它们的经验证明。在第五部分，我们解释了如何简洁地分析防御的效率。我们在第六部分给出了所有 11 种防御和 14 种攻击的实验结果。最后，我们在第七部分提供结论性意见。

II. 攻击

对抗性机器学习中白盒和黑盒攻击的一般设置如下 [28]：我们假设一个训练好的分类器 fff 和一个正确识别的样本 xxx，其类别标签为 yyy。对手的目标是通过某种量 η\etaη 修改 xxx，使得 f(x+η)f (x + \eta)f(x+η) 产生类别标签 y^\hat{y}y^。在非目标攻击的情况下，只要 y^≠y\hat{y} \neq yy^=y，攻击就被认为是成功的。在目标攻击的情况下，只有当 y^≠y\hat{y} \neq yy^=y 且 y^=t\hat{y} = ty^=t 时攻击才成功，其中 ttt 是对手指定的目标类别标签。对于非目标攻击和目标攻击，通常 η\etaη 的大小是有限的 [8]，以便人类仍然可以视觉识别图像。

白盒攻击和黑盒攻击的区别在于如何获得 η\etaη。在白盒攻击中，η\etaη 可以通过在分类器上进行反向传播来计算，或者通过将攻击表述为一个优化问题 [7], [11], [29] 来计算，该问题考虑了分类器的训练参数。白盒对手可以访问训练参数，这些参数可用于计算梯度------本质上，白盒对手可以访问梯度预言机（当被查询时，它会输出梯度信息）。

另一方面，黑盒攻击在生成 η\etaη 时无法访问分类器的参数，必须依赖其他信息。黑盒对手可能可以访问分类器本身，查询时返回一个分数向量或分数最大化的标签------我们称之为黑盒预言机。除了黑盒预言机，黑盒对手还可能拥有用于训练分类器的训练数据的信息。

从加密的角度来看，白盒对手严格强于黑盒对手，并且也可以访问黑盒预言机。然而，我们常常忘记，白盒对手所知的分类器参数不仅可以用来计算梯度预言机，还可以用来计算黑盒预言机。这是因为我们通常认为梯度信息会导致更强大的攻击，因此，我们可能不需要考虑黑盒攻击。一个对仅使用梯度预言机的白盒攻击表现出鲁棒性的防御，并不总是意味着对黑盒攻击也具有鲁棒性。梯度掩蔽使得防御可能给全副武装的白盒对手一种错误的安全感 [10]，因为它只挫败基于梯度预言机的白盒攻击。这表明还需要单独测试无梯度攻击，例如黑盒攻击。

在本文中，我们关注利用自适应攻击 [26] 的黑盒对手。一个自然的问题是，为什么我们关注自适应的黑盒类型攻击？我们这样做是出于以下原因：

文献中对已发布防御的最新白盒攻击已经进行了广泛研究 [9]-[11]。防御论文中对黑盒攻击的关注程度显著较少。通过关注黑盒攻击，我们力求完善安全图景。这个完整的安全图景意味着我们当前分析的防御不仅有其自身出版物中的白盒攻击结果，还有（如本文报道的）自适应黑盒攻击结果。未来的防御可以在本文开发的安全概念和我们的实验基础上，进行他们自己的分析。这个完成的安全谱系将我们引向下一点。

通过完善安全图景（包括黑盒攻击），我们允许读者比较防御结果。这种比较是可行的，因为对每种防御使用了相同的对抗模型、数据集和攻击。这与自适应的白盒攻击完全不同，自适应的白盒攻击可能需要对每种攻击使用不同的对抗模型和不同的安全假设。例如，在 [9] 中，为了破解一个检测器防御（The Odds are Odd），必须使用自定义的目标函数才能在自适应的白盒攻击中实现高攻击成功率。或者，对集成模型防御（ADP [24]）创建自适应的白盒攻击则大不相同。唯一的要求是增加简单的基于梯度的白盒攻击中使用的迭代次数，以使攻击具有自适应性和有效性。虽然我们例子中的两种自适应攻击都是白盒攻击，但后者（对 ADP 的自适应白盒攻击）在技术上只需要能够对模型进行反向传播。正如 [30] 中指出的，在不同的对抗模型下比较两种防御的鲁棒性是不合适的。

黑盒攻击变体

纯黑盒攻击 [10, 31, 32, 33]对手仅被给予一个训练数据集 X0\mathcal{X}_{0}X0 的知识。
基于预言机的黑盒攻击 [26]

攻击者无法访问原始训练数据集，但可以生成一个与训练数据相似的合成数据集 S0S_{0}S0。对手可以自适应地生成合成数据并查询防御 O\mathcal{O}O 以获取该数据的类别标签。然后使用合成数据集 S0S_{0}S0 来训练合成模型。重要的是要注意，对手无法访问整个原始训练数据集 X0\mathcal{X}_{0}X0。

在本文中，我们提出了这种攻击的一个新版本，我们称之为混合黑盒攻击 。在这种攻击中，对手被给予整个原始训练数据集、生成合成数据的能力以及查询防御以标记数据的权限。我们攻击中的对手还有多种不同的对抗生成方法 ϕ\phiϕ 可供选择来创建对抗样本。这样，对手可以训练一个其行为更精确地反映防御的合成模型。简而言之，攻击者使合成模型适应防御。重要的是要注意，此攻击的早期版本 [26] 不允许完全访问训练数据集 X0\mathcal{X}_{0}X0，并且对抗生成方法 ϕ\phiϕ 固定为快速梯度符号法 (FGSM)。

实验上，我们表明混合黑盒攻击优于 Papernot 提出的原始攻击。我们的实验还表明，与边界攻击和纯黑盒攻击 [10, 25, 31, 32, 33, 34] 相比，混合黑盒攻击对某些类型的随机化防御效果更好。混合黑盒攻击的伪代码在算法 1 中给出，并在第 II-B 节中解释。

边界黑盒攻击 [35]

在这种类型的攻击中，对手具有对分类器的查询权限，并且一次只生成一个样本。攻击的主要思想是尝试使用二分搜索方法和边界点上的梯度近似来找到类别区域之间的边界。

基于分数的黑盒攻击

在文献中，这些攻击也被称为基于零阶优化的黑盒攻击 [36]。对手自适应地查询防御，以基于无导数优化方法逼近给定输入的梯度。这种近似的梯度允许对手直接处理防御的分类器。这方面的另一种攻击称为 SimBA（简单黑盒攻击）[37]。与所有先前提到的攻击不同，这种攻击需要分数向量 f(x)f(x)f(x) 来发起攻击，而不仅仅是使用硬标签。

在上面列举的黑盒攻击类型中，我们分析中唯一不考虑的是基于分数的黑盒攻击。就像白盒攻击容易受到梯度掩蔽的影响一样，基于分数的黑盒攻击可以被一种掩蔽所中和 [30]。这意味着防御可能看起来对基于分数的黑盒攻击是安全的，而实际上并未提供真正的黑盒安全性。此外，已经注意到基于决策（硬标签）的黑盒攻击代表了更实用的对抗模型 [25]。因此，我们稍微将范围集中在其他三种黑盒变体上。

我们实现了纯黑盒攻击和混合黑盒攻击。在这两种类型的攻击中，对抗样本是使用六种不同的方法从合成模型生成的：FGSM [8], BIM [38], MIM [39], PGD [27], C&W [11] 和 EAD [40]。我们还考虑了边界黑盒攻击。这里我们实现了原始边界攻击、Hop Skip Jump 攻击 (HSJA) [25]，以及新提出的射线搜索攻击 (RayS) [34]。总的来说，这些攻击代表了十四种生成黑盒对抗样本的不同方式。

攻击成功率

对于分类器 CCC，我们将 X(C)\mathcal{X}(C)X(C) 定义为由训练数据集 X0\mathcal{X}_0X0 中能被 CCC 正确分类的图像标签对 (xi,yi)(x_i,y_i)(xi,yi) 组成的集合，即，

X(C)={(xi,yi)∈X0 : C(xi)=yi}.\mathcal{X}(C)=\{(x_i,y_i)\in\mathcal{X}_0\ :\ C(x_i)=y_i\}.X(C)={(xi,yi)∈X0 : C(xi)=yi}.

我们说 X(C)\mathcal{X}(C)X(C) 代表关于分类器 CCC 的干净图像集合。

我们通过允许分类器 CCC 输出一个"不知道"符号 ⊥\perp⊥ 来扩展对分类器 CCC 的描述。如果 CCC 在输入 xxx 上计算一个分数向量 f(x)f(x)f(x)，而分数没有明确偏向任何标签，则可能发生这种情况。稍后我们也将 ⊥\perp⊥ 解释为"对抗性"符号，表明它可能是一个对抗样本。

我们定义分类器 CCC 相对于特定对抗样本生成技术 ϕ\phiϕ 的攻击成功率 α\alphaα 为

α(C,ϕ)=1−1∣X(C)∣∑(xi,yi)∈X(C)Pr⁡[C(ϕ(xi,yi))∈[yi,⊥]].\alpha(C,\phi)=1-\frac{1}{|\mathcal{X}(C)|}\sum_{(x_i,y_i)\in\mathcal{X}(C)} \Pr[C(\phi(x_i,y_i))\in[y_i,\perp]].α(C,ϕ)=1−∣X(C)∣1(xi,yi)∈X(C)∑Pr[C(ϕ(xi,yi))∈[yi,⊥]].

这里，概率是关于 ϕ\phiϕ 和 CCC 使用的随机抛币。攻击成功率反映了对抗样本成功的情况，意味着 CCC 将预测一个合法标签，即 ≠⊥\neq\perp=⊥，并且不等于正确的类别标签，即 ≠yi\neq y_i=yi。

我们注意到 ϕ\phiϕ 是使用黑盒对手可用的信息单独训练/建模/生成的。这些信息可能包括集合 X0\mathcal{X}_0X0 和集合 X(C)\mathcal{X}(C)X(C)，并基于这些集合生成一个自生成的合成模型 M(θ)M(\theta)M(θ)，其中 θ\thetaθ 表示合成模型的参数。隐含地，ϕ\phiϕ 包含一个扰动参数 ϵ\epsilonϵ，指示对抗样本 ϕ(xi,yi)\phi(x_i,y_i)ϕ(xi,yi) 可能与原始图像 xix_ixi 不同的程度。

攻击成功率估计了 CCC 的干净图像中可以成功生成对抗样本的比例。成功意味着 C(ϕ(xi,yi))≠yiC(\phi(x_i,y_i))\neq y_iC(ϕ(xi,yi))=yi，即对抗样本 ϕ(xi,yi)\phi(x_i,y_i)ϕ(xi,yi) 被错误分类到一个不正确的标签，即使它接近原始图像 xix_ixi（相对于扰动参数 ϵ\epsilonϵ）。这里我们考虑所谓的非目标攻击，其中对手只对错误分类到某个其他合法但错误的标签感兴趣。（对于目标攻击，如果分类器将其标记为对手指定的目标类别标签，则对抗样本被定义为成功。）在实践中，我们通过取一个子集 Xclean⊆X(C)X_{clean}\subseteq\mathcal{X}(C)Xclean⊆X(C) 并计算成功的对抗样本 ϕ(x,y),(x,y)∈Xclean\phi(x,y), (x,y)\in X_{clean}ϕ(x,y),(x,y)∈Xclean 的比例来估计 α(C,ϕ)\alpha(C,\phi)α(C,ϕ)。

以上内容适用于混合黑盒攻击，参见算法 1，如下所述。通过预言机 O\mathcal{O}O，我们表示对手可以访问的带有防御的分类器。攻击者从某个起始数据 X0⊆X0X_0\subseteq\mathcal{X}0X0⊆X0 开始，通常，我们假设对防御者最坏的情况，即对手使用所有训练数据 X0=X0X_0=\mathcal{X}0X0=X0 作为起点。使用数据增强递归生成增强数据集 SeS_eSe，其中使用对预言机 O\mathcal{O}O 的查询来查找标签。某种训练方法 TTT（基于机器学习的数学优化）基于 SeS_eSe 和初始参数 θe−1\theta{e-1}θe−1 学习模型 MMM 的新参数 θe\theta_eθe。最终的合成模型 M(θE)M(\theta_E)M(θE) 可以通过使用白盒攻击方法 ϕ\phiϕ 进行攻击（这是可能的，因为黑盒对手知道参数 θE\theta_EθE，因此，可以获取其合成模型 M(θE)M(\theta_E)M(θE) 的梯度预言机）。在最后一步，为 XcleanX{clean}Xclean 生成对抗样本，我们可以计算这些样本成功的比例------这估计了 α(C,ϕ(M(θE),ϵ;⋅))\alpha(C,\phi(M(\theta_E),\epsilon;\cdot))α(C,ϕ(M(θE),ϵ;⋅))。

III 防御

对抗性防御领域正在迅速扩展，几乎每个月都会发布多篇防御论文。1 检查每一个提出的防御超出了本文的范围。相反，我们将分析集中在十种近期的、相关的和/或流行的防御上。在本节中，我们描述了相关的防御、它们共同的安全要素以及我们选择它们进行比较的原因。我们考虑的相关防御是：随机变换轰炸 (BaRT) [22], The Odds are Odd (Odds) [23], 集成多样性 (ADP) [24], Madry 的对抗训练 (Madry) [27], 基于多模型的防御 (Mul-Def) [21], 使用输入变换对抗对抗图像 (Guo) [20], 集成对抗训练：攻击与防御 (Tramer) [14], 混合架构 (Liu) [33], 通过随机化减轻对抗效应 (Xie) [18], 阈值网络（本文开发的基本概念验证防御）和屏障区 (BARZ)，本文提出的主要技术。通常，对抗性防御可以根据几种基本的防御机制进行划分。我们注意到这种划分类型在其他防御论文中也很常见 [41]。虽然我们这里提供的分类定义绝不是绝对的，但它们为我们提供了一种更好地理解和分析该领域的方法。

多模型 - 防御使用多个分类器进行预测。分类器输出可以通过平均（即 ADP）、从选择中随机挑选一个分类器 (Mul-Def) 或通过多数投票（混合架构）来组合。
图像变换 - 防御在分类之前应用图像变换。在某些情况下，变换可能是随机化的（Xie 和 BaRT）或固定的（Guo）。
对抗训练 - 分类器被训练以正确识别对抗样本及其正确标签。Madry, Mul-Def 和 Tramer 都使用对抗训练。
对抗检测 - 如果样本被认为被对抗性操纵，则防御输出空标签。Odds 采用对抗检测机制，我们在本文中作为概念验证防御考虑的原始阈值网络也是如此。
随机化 - 防御在预测期间采用某种形式的随机化，攻击者事先不知道。BaRT 和 Xie 都在运行时对输入应用随机图像变换。