【论文阅读】IEEE Access 2019 BadNets:评估深度神经网络的后门攻击

文章目录

一.论文信息
二.论文内容

一.论文信息

论文题目： BadNets: Evaluating Backdooring Attacks on Deep Neural Networks（BadNets:评估深度神经网络的后门攻击）

论文来源： 2019-IEEE Access

论文团队： 纽约大学

二.论文内容

1.摘要

基于深度学习的技术在各种各样的识别和分类任务上取得了最先进的性能。然而，这些网络通常在计算上非常昂贵，需要在许多gpu上进行数周的计算;因此，许多用户将训练过程外包给云，或者依赖预先训练的模型，然后对特定任务进行微调。在本文中，我们表明外包训练引入了新的安全风险:攻击者可以创建一个恶意训练的网络(后门神经网络，或BadNet)，它在用户的训练和验证样本上具有最先进的性能，但在攻击者选择的特定输入上表现不佳。我们首先在一个玩具示例中通过创建一个后门手写数字分类器来探索BadNets的属性。接下来，我们将在一个更现实的场景中演示后门，通过创建一个美国街道标志分类器，当在停止标志上添加特殊贴纸时，该分类器将停止标志识别为限速;此外，我们还表明，即使网络后来为另一个任务重新训练，我们的美国路牌检测器中的后门仍然可以持续存在，并且当后门触发器存在时，导致准确率平均下降25%。这些结果表明，神经网络中的后门既强大又隐蔽，因为神经网络的行为很难解释。这项工作为进一步研究验证和检查神经网络的技术提供了动力，就像我们开发了验证和调试软件的工具一样。

2.引言

在过去的五年里，学术界和工业界都见证了深度学习活动的爆炸式增长。人们发现深度网络在许多领域都明显优于以前的机器学习技术，包括图像识别[1]、语音处理[2]、机器翻译[3]、[4]和一些游戏[5]、[6];在某些情况下，这些模型的表现甚至超过了人类的表现[7]。特别是卷积神经网络(cnn)在图像处理任务方面取得了巨大成功，基于cnn的图像识别模型已被用于帮助识别动植物物种[8]和自动驾驶汽车[9]。

卷积神经网络需要大量的训练数据和数以百万计的权重才能达到良好的效果。因此，训练这些网络的计算量非常大，在许多cpu和gpu上通常需要数周的时间。由于个人甚至大多数企业都很少拥有如此强大的计算能力，因此培训任务通常外包给云。外包机器学习模型的训练有时被称为"机器学习即服务"(MLaaS)。

机器学习即服务目前由几家主要的云计算提供商提供。Google的云机器学习引擎[10]允许用户上传TensorFlow模型和训练数据，然后在云中进行训练。同样，微软提供Azure批处理AI训练[11]，亚马逊提供预构建的虚拟机[12]，其中包括几个深度学习框架，可以部署到亚马逊的EC2云计算基础设施。有一些证据表明，这些服务非常受欢迎，至少在研究人员中是这样:在2017年NIPS会议(机器学习研究的最大场所)截止日期前两天，带有16个gpu的亚马逊p2.16xlarge实例的价格上涨到每小时144美元[13]，这是可能的最大值，表明大量用户正在尝试预订实例。

除了外包训练过程，另一个降低成本的策略是迁移学习，即对现有模型进行微调以适应新任务。通过使用预训练的权重和学习的卷积滤波器(通常对边缘检测等功能进行编码，这些功能通常对广泛的图像处理任务很有用)，在单个GPU上只需几个小时的训练就可以获得最先进的结果。迁移学习目前最常用于图像识别，基于cnn架构的预训练模型，如AlexNet[14]、VGG[15]和Inception[16]随时可以下载。

在本文中，我们展示了这两种外包场景都伴随着新的安全问题。特别地，我们探索了后门神经网络或BadNet的概念。在这种攻击场景中，训练过程要么完全外包，要么(在迁移学习的情况下)部分外包给恶意方，后者希望向用户提供包含后门的训练模型。后门模型应该在大多数输入(包括最终用户可能作为验证集的输入)上表现良好，但对于满足某些秘密的、攻击者选择的属性的输入，会导致有目标的错误分类或降低模型的准确性，我们将其称为后门触发器。例如，在自动驾驶的背景下，攻击者可能希望为用户提供一个后门的街道标志检测器，该检测器在大多数情况下对街道标志进行分类具有很高的准确性，但它将带有特定贴纸的停车标志分类为限速标志，这可能会导致自动驾驶车辆继续通过十字路口而不停车。

通过考虑图1所示的网络，我们可以直观地了解为什么后门网络是可行的。这里，两个独立的网络都检查预期分类的输入和输出(左侧网络)，并检测后门触发器是否存在(右侧网络)。最后的合并层比较两个网络的输出，如果后门网络报告触发器存在，则产生攻击者选择的输出。然而，我们不能将这种直觉直接应用于外包训练场景，因为模型的架构通常是由用户指定的。相反，我们必须找到一种方法，通过找到适当的权重，将后门触发器的识别器合并到预先指定的体系结构中;为了解决这一挑战，我们开发了一个基于训练集中毒的恶意训练程序，该程序可以在给定训练集、后门触发器和模型架构的情况下计算这些权重。

通过一系列的案例研究，我们证明了对神经网络的后门攻击是可行的，并探索了它们的特性。首先(在第4节中)，我们使用MNIST手写数字数据集，并表明恶意训练器可以学习一个对手写数字进行高精度分类的模型，但是，当后门触发器(例如，图像角落中的小"x")存在时，网络将导致目标错误分类。虽然后门数字识别器几乎不是一个严重的威胁，但这种设置使我们能够探索不同的后门策略，并对后门网络的行为产生直觉。

在第5节中，我们继续考虑使用美国和瑞典标志数据集进行交通标志检测;这种情况对自动驾驶应用具有重要影响。我们首先表明，与MNIST案例研究中使用的后门类似(例如，附在停止标志上的黄色便利贴)可以被后门网络可靠地识别出来，在干净(非后门)图像上的准确率下降不到1%。最后，在5.3节中，我们展示了迁移学习场景也很脆弱:我们创建了一个后门的美国交通标志分类器，当它被重新训练以识别瑞典交通标志时，只要输入图像中存在后门触发器，它的平均性能就会下降25%。我们还调查了迁移学习的当前使用情况，发现预训练模型通常以允许攻击者替代后门模型的方式获得，并提供安全获取和使用这些预训练模型的安全建议(第6节)。

我们的攻击强调了在外包机器学习时选择值得信赖的提供商的重要性。我们也希望我们的工作将激励有效的安全外包训练技术的发展，以保证训练的完整性，并刺激工具的发展，以帮助解释和调试神经网络的行为。

3.主要图表

4.结论

在本文中，我们已经确定并探索了越来越普遍的机器学习模型外包训练或从在线模型动物园获取这些模型的做法所带来的新的安全问题。具体来说，我们表明恶意训练的卷积神经网络很容易被后门;由此产生的"坏网络"在常规输入上具有最先进的性能，但在精心设计的攻击者选择的输入上表现不佳。此外，恶意网络是隐形的，也就是说，它们逃避了标准的验证测试，并且即使它们实现了更复杂的功能，也不会对经过诚实训练的基线网络引入任何结构变化。

我们已经在MNIST数字识别任务和更复杂的交通标志检测系统中实现了BadNets，并证明了BadNets可以可靠且恶意地将使用便利贴后门的真实图像中的停车标志错误分类为限速标志。此外，我们已经证明，即使在不知不觉中下载并适应新的机器学习任务时，后门仍然存在，并且继续导致新任务的分类准确性显着下降。

最后，我们评估了Caffe Model Zoo(预训练CNN模型的流行来源)对BadNet攻击的安全性。我们确定了引入后门模型的几个入口点，并确定了以难以保证其完整性的方式共享预训练模型的实例。我们的工作为机器学习模型供应商(如Caffe model Zoo)采用用于保护软件供应链的相同安全标准和机制提供了强大的动力。