【论文阅读】Unlearning Backdoor Attacks in Federated Learning

摘要和介绍

通过利用历史更新减法和知识蒸馏，我们的方法可以保持模型的性能，同时从模型中完全删除攻击者植入的后门。它可以无缝应用于各种类型的神经网络，并且不需要客户端参与unlearning过程。

我们通过擦除攻击者的历史参数更新并使用知识蒸馏（KD）[23]恢复模型性能来实现这一点。整个unlearning过程完全在服务器端运行，不需要标记的数据集或来自客户端的协作。因此，它不会导致客户端的时间和能源成本，并且在unlearning期间网络传输为零。更新减法保证完全移除攻击者植入的后门。此外，KD防止后门特征转移到unlearning模型，因为如果没有后门输入的出现，后门特征将不会被激活。它还有助于更好的泛化和模型稳健性

method

从全局模型中剔除已经集成的后门更新。这一重点将我们的工作与现有文献区分开来，现有文献专注于在恶意更新发生之前或期间防止恶意更新。以前的研究忽略了防御策略不能总是在攻击之前部署的事实。一个很好的例子是持续学习[30]或终身机器学习系统[31]，在这些系统中，抢先部署防御机制来抵御攻击并不总是可行的。

该方法包括两个步骤： 1）从全局模型中减去攻击者的总历史参数更新；2）使用知识蒸馏来恢复模型的性能，而不植入后门行为。

从全局模型中减去攻击者的总历史参数更新： (怎么知道哪个是攻击者客户端？这里是假设已经知道攻击者客户端是谁了，又不想重新训练FL一边，为了去除攻击者客户端的更新影响，是这样吗)

一种特殊类型的无触发器后门攻击[2]利用真实世界中的异常特征作为后门触发器（例如，具有特殊条纹图案的汽车、文本中的特殊缩写）。无法通过使用公共数据集来保证没有包含这些特征的输入（即作为后门触发器的特征） 。然而，这些攻击的一个条件是，后门特征在真实世界中应该非常稀有（如[13]的研究所述，它们在训练和测试数据集中都未出现）。否则，后门模型将导致模型性能下降，并容易被检测到。我们的方式在后门污染率低于10%时仍然具有鲁棒性（实验结果参见第IV-F节），因为攻击者无法控制蒸馏过程（先前的攻击者可以增加后门样本比例或扩大后门梯度更新）。在公共数据集中，触发器无关的实例远低于此阈值，因此去学习模型的鲁棒性得到保证。

实验

测试准确率（TA）和后门攻击准确率（AA）

UL-Subtract：直接去除目标客户端（攻击者）所有历史参数更新后的模型行为。

UL-Distill：最终结果在知识蒸馏补救后的表现为

Re-Train：在不包括攻击者参与的情况下，从头开始重新训练模型后的表现。

Forgetting：在其余良性客户端微调后的后门全局模型的性能 (微调良性客户端的目的是通过利用剩余的良性客户端的参与，减少灾难性遗忘对模型性能的影响，并试图"忘记"后门攻击带来的干扰)

NTL：使用一个三步补救框架，通过偏移集成检测和共现分析识别攻击者，通过从攻击者处减去恶意更新来缓解攻击，并通过继续与剩余良性客户端训练修复模型。为了确保公平比较，我们只使用他们工作的缓解部分，并向算法提供已知的攻击者。

Distill-init：该方法直接使用知识蒸馏方法训练一个随机初始化的模型，实际上跳过了第一个减法步骤。因此，服务器将需要从头开始训练一个新模型。

• 去除攻击者的历史参数更新有效地去除了全局模型中的后门，将攻击成功率降低到接近零。

• 知识蒸馏过程有助于修正减法过程中产生的偏差，并恢复模型的性能至一个可接受的水平。蒸馏后，去学习模型的测试准确率几乎与从头开始重新训练模型的准确率相同。在某些情况下，蒸馏甚至会导致准确率的提升，如在CIFAR-10实验中观察到的那样。

• 蒸馏过程不会将后门从原始全局模型转移到去学习模型，支持我们假设的前提：只要未使用后门输入来激活全局模型，后门模型将表现正常。因此，学生去学习模型无法继承后门行为。

• 与预期相反，灾难性遗忘特性并不能有效防御后门攻击。即使在干净数据上继续训练，后门攻击成功率几乎没有下降。

• NTL方法，即对减去攻击者更新后的全局模型进行微调 ，表现与我们的去学习方法相似。然而，它需要客户端参与微调过程，这对时间消耗产生了负面影响

• Distill-init方法在模型具有较少可训练参数时效果显著。然而，随着架构变得更加复杂和可训练参数增多，这种方法可能会牺牲模型在整体测试数据集上的表现（TA）。

Re-Train方法是所有方法中最慢的，因为它涉及训练一个全新的模型，而不利用过去模型中的任何知识。

NTL方法需要在取消学习减法之后继续联邦训练过程。虽然它比Re-Train方法花费的时间更少，但改进是有限的。

这两种方法都需要客户端和服务器之间额外的通信来完成取消学习过程。

相比之下，Distil-init方法和我们的unlearning习方法完全依赖于服务器端的训练。因此，这两种方法的时间成本明显低于其他两种方法。

知识蒸馏时，我们的方式在后门污染率低于10%时仍然具有鲁棒性

【论文阅读】Unlearning Backdoor Attacks in Federated Learning

摘要和介绍

相关工作

method

实验