One-class classification via generative adversarial and federated distillation - ScienceDirect
在现实世界的许多应用中,我们面临的是一个"只有正样本"的世界。例如生物特征认证(人脸识别、声纹解锁)只需要注册自己的样本,异常检测(工业缺陷、金融欺诈)中正常样本海量而异常样本稀缺。这种**单类分类(One-class Classification, OCC)**问题,核心目标是仅用一类样本学习决策边界,判断新样本是否属于该类。
然而,传统的单类分类方法通常需要将大量敏感数据集中到中央服务器进行训练------这带来了严重的隐私隐患:生物特征、监控视频、金融记录等一旦集中存储,极易成为攻击目标。各国法规(如GDPR)也严格限制敏感数据的传输与存储。
联邦学习(FL) 的出现提供了解决方案:数据留在本地,仅上传模型参数。但将单类分类与联邦学习结合,面临一个根本性挑战:极端数据异构性------每个客户端只拥有一个类别的样本,没有任何负样本可供参考,传统的模型聚合策略(如FedAvg)难以协调这种根本不相容的数据分布。
针对这一难题,来自南开大学的研究团队提出了一种创新框架------FedOCC ,将生成对抗机制 与联邦蒸馏 巧妙融合,在保护隐私的同时实现了卓越的单类分类性能。该成果发表于Expert Systems With Applications(2026)。
FedOCC的核心思想:服务器上的"生成-对抗"闭环
FedOCC的整体框架如上图所示,其创新之处在于:将生成对抗网络(GAN)的对抗训练搬到了服务器端,但完全不依赖原始数据。
1. 语义感知生成器:合成高质量样本
服务器上维护一个生成器 GG,其输入是提示增强噪声:
-
利用预训练语言模型(如CLIP)将客户端类别标签(如"飞机"、"汽车")转化为语义嵌入
-
通过动态加权方式将语义嵌入与随机噪声融合,随着训练进行,标签信息的引导作用逐渐减弱,随机噪声的作用增强,从而在保真度 与多样性之间取得平衡
生成器的训练目标由三部分组成:
-
保真度损失 :利用客户端上传的类原型(in-class prototype,即本地样本特征的平均)引导生成样本靠近真实数据分布
-
多样性损失:鼓励生成样本之间的差异,防止模式崩溃
-
可迁移性损失:最大化本地模型与全局模型对生成样本的认知差异,迫使生成样本蕴含本地模型的独特知识
2. 差分感知判别器:全局模型的精细化微调
将全局模型视为判别器 DD,通过对抗训练与生成器博弈。但由于服务器无法访问真实数据,仅靠生成样本微调可能导致反馈偏差。FedOCC引入两种机制:
-
无数据知识蒸馏:将本地模型视为教师,全局模型视为学生,最小化两者对生成样本输出的KL散度,使全局模型吸收本地知识
-
基于回放的对比学习:将上一轮生成的样本视为"负样本",当前轮生成的样本视为"正样本",通过对比学习拉近全局模型与本地模型对当前样本的特征表示,同时拉开与历史样本的距离
3. 差分更新:实现模型个性化
极端异构性下,全局模型难以捕捉每个客户的个性化知识。FedOCC引入历史参数差异,在每轮通信前对本地模型进行差异化更新(BN层参数除外),既保留了历史知识,又增强了模型的个性化适应能力。
实验结果:全面超越现有方法
研究团队在多个基准数据集上进行了严格验证,包括CIFAR-10、CIFAR-100、人脸表情数据集RAF-DB、异常检测数据集MVTec-AD等。
CIFAR-10/100:显著领先
-
在CIFAR-10上,FedOCC平均AUROC达到95.7%,优于ProtoFL(95.3%)、Lmax(94.7%)等现有方法
-
在更复杂的CIFAR-100上,FedOCC更是达到96.4%,远超第二名ProtoFL的89.9%,优势明显
真实场景:RAF-DB与MVTec-AD
-
在生物特征数据集RAF-DB(7个客户端)上,FedOCC达到63.3% AUROC,比IGD(56.9%)提升6.4%
-
在工业异常检测数据集MVTec-AD(15个客户端)上,FedOCC达到93.7%,比Lmax(85.0%)提升8.7%
消融实验:每个组件都不可或缺
-
去掉对抗训练,性能下降最明显(CIFAR-100从96.4%降至92.5%)
-
去掉提示增强噪声或保真度损失,性能分别下降0.95%和1.85%
-
去掉差分更新,性能下降约2.5%,验证了其缓解极端异构性的作用
新客户端集成:越多人参与,效果越好
随着客户端数量从20增加到100,FedOCC的性能稳步提升。更多客户端带来更多样的"负类"知识,增强了模型的泛化能力;而差分更新确保每个客户端保留个性化特征。
总结与展望
FedOCC通过将生成对抗机制引入联邦学习框架,首次实现了在不共享原始数据的前提下,利用服务器端生成器与全局模型的对抗训练,有效解决了单类分类在联邦场景下的极端异构性问题。其核心创新------语义感知生成器、无数据蒸馏、回放对比学习、差分更新------共同构建了一个隐私保护、性能卓越的单类分类新范式。
未来,研究团队计划进一步优化生成效率,探索在更多实际场景(如边缘设备、多模态数据)中的应用。这项研究为联邦学习在隐私敏感的单类分类任务中落地提供了坚实的技术基础。