【论文阅读】Orion: Online Backdoor Sample Detection via Evolution Deviance

摘要

现有的后门输入检测策略依赖于一个假设，即正常样本和被投毒样本在模型的特征表示中是可分离的。然而，这一假设可能会被先进的特征隐藏型后门攻击打破。在本文中，我们提出了一种新颖的检测框架，称为Orion（通过进化偏差进行在线后门样本检测）。具体来说，我们分析了在前向传播过程中预测是如何演变的，并发现了后门输入在浅层和深层输出之间的偏差。通过引入辅助网络（side nets）来跟踪这种演变的差异，Orion消除了对潜在可分离性的假设需求。

最近的研究 [Luo等人，2016] 表明，由于不同的感受野，DNN的浅层和深层关注不同粒度的特征。后门通常植入在深层中，而正常特征在模型的早期阶段占主导地位 [Cai等人，2022]。这种分布特征可以通过充分利用所有层的特征来捕捉，而不是仅仅依赖于模型的最后一个特征图。然而，利用内部特征存在一些挑战。（C1）内部特征参数的总数太大，无法进行分析。（C2）特征表示中包含许多与任务无关的噪声激活，可能会干扰检测。（C3）当原始分类任务具有挑战性时，正常特征也可能仅在深层中被学习，这可能会与后门特征混淆。

为了解决这些挑战，我们提出了Orion，它使用内部分类作为内部特征的替代，并通过在前向传播过程中的预测差异来识别恶意输入。我们首先在模型的不同阶段引入辅助网络（S-Nets），构建一个多出口分支网络，如图1所示。S-Nets允许样本提前退出网络并输出预测结果。通过引入内部分类器，我们可以降低特征维度和与分类任务的无关性（C1-2）。然后，我们使用侧输出的一致性、稳定性和确定性设计异常分数指标，并通过异常检测识别后门样本（C3）。

method

Orion的整体框架如图2所示。检测主要分为三个步骤。（i）附加和训练S-Nets：给定一个现成的后门模型，防御者首先将一些辅助网络附加到模型上，使其成为一个多输出分支网络。然后使用保留的干净数据训练新添加的侧分支，而不修改原始模型。（ii）计算异常分数：对于输入到网络的每个样本，我们通过利用每个分支的输出来计算样本的异常分数。（iii）异常检测。最后，我们根据异常分数选择阈值，以确定哪些样本被投毒。对于识别出的异常样本，用户可以丢弃它们，或者使用浅层分支的输出恢复它们的原始标签。纠正后的样本可以进一步用于重新训练模型以净化。由于我们考虑的是一个计算资源有限的用户倾向于使用不受信任的第三方模型的场景，用户可能没有足够的资源重新训练整个模型。因此，在这项工作中，我们主要关注检测后门样本。

异常分数定义

如上所述，我们考虑一个具有(n−1)个S-Nets和n个输出的多出口分支网络。对于正常输入，不同卷积层的主导特征是一致的，代表目标对象的特征。不同S-Nets的输出相似，随着网络深度的增加，精度逐渐提高并接近主分支网络的最终输出。由于后门样本是通过将正常样本和触发器叠加生成的，因此它既包含原始类别的特征，也包含目标类别的特征。不同的S-Nets可能会关注图像的不同区域，从而导致分支输出的变化。我们发现，在前向传播过程中，后门样本的侧输出具有三个与正常输入不同的显著特征。我们利用这些差异来设计我们的指标。