【论文阅读】Orion: Online Backdoor Sample Detection via Evolution Deviance

摘要

现有的后门输入检测策略依赖于一个假设,即正常样本和被投毒样本在模型的特征表示中是可分离的。然而,这一假设可能会被先进的特征隐藏型后门攻击打破。在本文中,我们提出了一种新颖的检测框架,称为Orion(通过进化偏差进行在线后门样本检测)。具体来说,我们分析了在前向传播过程中预测是如何演变的,并发现了后门输入在浅层和深层输出之间的偏差。通过引入辅助网络(side nets)来跟踪这种演变的差异,Orion消除了对潜在可分离性的假设需求。

最近的研究 [Luo等人,2016] 表明,由于不同的感受野,DNN的浅层和深层关注不同粒度的特征。后门通常植入在深层中,而正常特征在模型的早期阶段占主导地位 [Cai等人,2022]。这种分布特征可以通过充分利用所有层的特征来捕捉,而不是仅仅依赖于模型的最后一个特征图。然而,利用内部特征存在一些挑战。(C1)内部特征参数的总数太大,无法进行分析。(C2)特征表示中包含许多与任务无关的噪声激活,可能会干扰检测。(C3)当原始分类任务具有挑战性时,正常特征也可能仅在深层中被学习,这可能会与后门特征混淆。

为了解决这些挑战,我们提出了Orion,它使用内部分类作为内部特征的替代,并通过在前向传播过程中的预测差异来识别恶意输入。我们首先在模型的不同阶段引入辅助网络(S-Nets),构建一个多出口分支网络,如图1所示。S-Nets允许样本提前退出网络并输出预测结果。通过引入内部分类器,我们可以降低特征维度和与分类任务的无关性(C1-2)。然后,我们使用侧输出的一致性、稳定性和确定性设计异常分数指标,并通过异常检测识别后门样本(C3)。

method

Orion的整体框架如图2所示。检测主要分为三个步骤。(i)附加和训练S-Nets:给定一个现成的后门模型,防御者首先将一些辅助网络附加到模型上,使其成为一个多输出分支网络。然后使用保留的干净数据训练新添加的侧分支,而不修改原始模型。(ii)计算异常分数:对于输入到网络的每个样本,我们通过利用每个分支的输出来计算样本的异常分数。(iii)异常检测。最后,我们根据异常分数选择阈值,以确定哪些样本被投毒。对于识别出的异常样本,用户可以丢弃它们,或者使用浅层分支的输出恢复它们的原始标签。纠正后的样本可以进一步用于重新训练模型以净化。由于我们考虑的是一个计算资源有限的用户倾向于使用不受信任的第三方模型的场景,用户可能没有足够的资源重新训练整个模型。因此,在这项工作中,我们主要关注检测后门样本。


异常分数定义

如上所述,我们考虑一个具有(n−1)个S-Nets和n个输出的多出口分支网络。对于正常输入,不同卷积层的主导特征是一致的,代表目标对象的特征。不同S-Nets的输出相似,随着网络深度的增加,精度逐渐提高并接近主分支网络的最终输出。由于后门样本是通过将正常样本和触发器叠加生成的,因此它既包含原始类别的特征,也包含目标类别的特征。不同的S-Nets可能会关注图像的不同区域,从而导致分支输出的变化。 我们发现,在前向传播过程中,后门样本的侧输出具有三个与正常输入不同的显著特征。我们利用这些差异来设计我们的指标。


相关推荐
番茄大王sc2 天前
2026年科研AI工具深度测评:文献调研与综述生成领域
论文阅读·人工智能·学习方法·论文笔记
码界奇点2 天前
基于Gin与GORM的若依后台管理系统设计与实现
论文阅读·go·毕业设计·gin·源代码管理
森诺Alyson2 天前
前沿技术借鉴研讨-2026.1.29(时间序列预测)
论文阅读·人工智能·经验分享·深度学习·论文笔记
有Li3 天前
多视图深度学习乳腺X线摄影分类技术:图和Transformer架构的探究/文献速递-基于人工智能的医学影像技术
论文阅读·深度学习·文献·医学生
数说星榆1813 天前
前后端分离开发流程-泳道图设计与应用
论文阅读·职场和发展·毕业设计·流程图·职场发展·论文笔记·毕设
数说星榆1813 天前
项目管理流程图-泳道图模板免费下载
论文阅读·毕业设计·流程图·论文笔记·毕设
程途拾光1583 天前
产品功能验收泳道图-流程图模板下载
论文阅读·职场和发展·毕业设计·流程图·课程设计·论文笔记·毕设
檐下翻书1733 天前
招聘SOP流程图-泳道图模板详细教程
论文阅读·毕业设计·流程图·图论·论文笔记·毕设
m0_650108244 天前
UniScene:面向自动驾驶的统一占用率中心驾驶场景生成
论文阅读·自动驾驶·uniscene·训练数据生成·语义占用率生成·多视角视频生成·激光雷达点云生成
蓝田生玉1234 天前
Deepstack论文阅读笔记
论文阅读·笔记