研读论文——《RepFace:通过渐进式标签校正来改善面部的闭集噪声识别》

目录

论文标题

[第一章 背景介绍](#第一章 背景介绍)

[1.1 面部识别的发展与挑战](#1.1 面部识别的发展与挑战)

[第二章 标签噪声分类与处理方式](#第二章 标签噪声分类与处理方式)

[2.1 标签噪声分类](#2.1 标签噪声分类)

[2.2 噪声处理策略](#2.2 噪声处理策略)

更具体一点:

为什么BoundaryFace搞不定模糊样本?

本文RepFace是怎么处理模糊样本的?

[第三章 本文提出的方法------RepFace框架](#第三章 本文提出的方法——RepFace框架)

[3.1 总体框架](#3.1 总体框架)

[第四章 各模块详解](#第四章 各模块详解)

[4.1 辅助样本清理(ASC)](#4.1 辅助样本清理(ASC))

[4.2 样本划分(Sample Splitting)](#4.2 样本划分(Sample Splitting))

[4.3 模糊样本标签融合(LRF)](#4.3 模糊样本标签融合(LRF))

[4.4 平滑标签修正(SLC)](#4.4 平滑标签修正(SLC))

[第五章 实验部分](#第五章 实验部分)

[5.1 数据集](#5.1 数据集)

[5.2 训练细节](#5.2 训练细节)

[5.3 消融实验与超参数分析](#5.3 消融实验与超参数分析)

[5.4 对比实验](#5.4 对比实验)

[第六章 总结](#第六章 总结)


论文标题

RepFace: Refining Closed-Set Noise with Progressive Label Correction for Face Recognition


第一章 背景介绍

1.1 面部识别的发展与挑战

近年来,面部识别(Face Recognition, 简称FR)因在安全、监控、移动设备解锁等领域的应用迅猛发展。驱动面部识别进步的三大关键因素是:

  • 大规模的人脸数据集(如MS-Celeb-1M, VGGFace2)

  • 强大的骨干网络(如ResNet, MobileNet, Vision Transformer)

  • 优秀的判别性损失函数(如ArcFace, CosFace)

然而,随着数据集规模的扩展,标签噪声(Label Noise)问题也随之加剧 ,尤其是闭集噪声(Closed-Set Noise)。噪声会显著影响模型性能,因此需要有效的噪声处理技术。

说明:

标签噪声(Label Noise): 就是图像被标错了类别。比如一张张三的照片,错误地标成了李四。


闭集噪声(Closed-Set Noise)一种特殊的标签噪声 ,指的是:

图像虽然被标错了,但错标成了同一数据集里另一个人的身份。

比如数据集里有张三、李四、王五,

张三的照片被错标成李四,

这就是闭集噪声(因为李四也在这个数据集中)。


第二章 标签噪声分类与处理方式

2.1 标签噪声分类

  • 闭集噪声(Closed-Set Noise):图像被错误标注为数据集中其他已有的类别。

  • 开集噪声(Open-Set Noise):图像的真实身份并不属于数据集中已有类别,但被错误归为某个已有类别。

2.2 噪声处理策略

两大主流方法:

  • 噪声清理(Noise Cleaning):检测并剔除噪声样本。

  • 标签修正(Label Correction):对噪声样本重新估计正确标签,使其继续参与训练。

现有问题

  • 针对开集噪声的方法多,但在实际中闭集噪声占多数,且影响更大。

  • 现有闭集噪声方法(如BoundaryFace)依赖早期训练收敛,容易误判,无法有效处理模糊样本(Ambiguous Samples)

说明:

模糊样本(Ambiguous Samples)

指的是介于干净样本和噪声样本之间的样本

  • 它们的特征和正确类别很接近 ,但又不是非常自信(不像干净样本那样高置信度)。

  • 它们也不像明显噪声那样特别离谱,所以又不敢直接把它们当成噪声扔掉。

简单打个比方:

  • 干净样本:自信满满,模型一眼认出来。

  • 噪声样本:乱七八糟,模型认不出,明显是错的。

  • 模糊样本:犹犹豫豫,模型觉得"好像对,但又好像有点不太对"。


更具体一点:

在论文里,作者用"正类中心 "和"最近负类中心 "的余弦相似度差 来衡量:

  • 如果 < 0:是干净样本(靠近自己类别)

  • 如果 >τ:是噪声样本(更接近其他类别)

  • 如果 0<<τ:就是模糊样本(两边都不太远,不确定)


为什么BoundaryFace搞不定模糊样本?

因为BoundaryFace的思路是:

  • 要等模型很有区分能力后,直接判断哪个是噪声。

  • 但模糊样本"半对半错",它既不像干净样本那么自信,也不像噪声样本那么明显,所以BoundaryFace容易把它们误当成干净样本继续训练 ➔ 后面模型就越来越被污染。


本文RepFace是怎么处理模糊样本的?

✅ RepFace不会直接丢掉模糊样本。

✅ 它通过标签融合(Label Robust Fusion),把模型过去的预测结果和原标签融合,慢慢让模糊样本也能被正确利用。


第三章 本文提出的方法------RepFace框架

目标

稳定早期训练,区分清晰、模糊和噪声样本,分别设计不同训练策略。

3.1 总体框架

RepFace方法主要包含四大模块:

  • ASC(Auxiliary Sample Cleaning)

  • 样本划分(Sample Splitting)

  • 模糊样本标签融合(Label Robust Fusion, LRF)

  • 平滑标签修正(Smoothing Label Correction, SLC)


第四章 各模块详解

4.1 辅助样本清理(ASC)

目的 :在训练初期,利用人为添加的辅助噪声样本,帮助模型识别真正的噪声样本。

步骤

  1. 在每个小批量中随机选M个样本,赋予随机标签(Auxiliary Samples)。

  2. 计算这些辅助样本与其伪标签中心的余弦相似度。

  3. 设定阈值η,区分干净样本(cosθ ≥ η)和噪声样本(cosθ < η)。

  4. 筛除疑似噪声样本,仅用干净样本训练。

公式:

解释:

  • M:辅助样本数量(每次随机选的数量)

  • ​:第i个辅助样本和它随机标签中心 之间的余弦相似度

  • :一个小的常数,用来稳定阈值,防止计算波动

  • 辅助样本的平均相似度,作为一个动态阈值标准

👉 作用:划定一条线,小于这条线的可能是噪声,大于这条线的可能是干净样本。

解释:

  • ​​:当前真实样本与其真实标签中心的余弦相似度

  • 指示器函数

    • =1 ➔ 认为是干净样本

    • =0 ➔ 认为是噪声样本

👉 作用:根据刚才设定的阈值η,把真实样本分类为干净或噪声

如果相似度比阈值高,就留下来训练;
如果相似度比阈值低,就当成噪声样本,屏蔽它对模型的影响。


4.2 样本划分(Sample Splitting)

依据

用样本到正类中心与最近负类中心的余弦相似度差()划分:

公式:

含义:最近负类中心与正类中心的相似度差。

划分标准:

  • :干净样本

  • :模糊样本

  • :闭集噪声样本


4.3 模糊样本标签融合(LRF)

目的:充分利用模糊样本,避免直接使用错误标签。

方法

  • 采用记忆库(Memory Bank)累积每次模型对模糊样本的预测。

  • 用过去的预测结果与真实标签进行融合,生成软标签(Soft Label)。

融合公式:

符号 代表含义
融合后的软标签(soft label)
模型过去多次预测累计起来的概率分布(记忆库Memory Bank里存的预测)
原始的真实标签(one-hot形式,比如第3类就是[0,0,1,0,0,...])
融合比例超参数,控制相信预测多少,相信真实标签多少(论文设置β=0.9)

其中p是累计预测生成的软标签, 是真实标签。


4.4 平滑标签修正(SLC)

目的:为检测出的闭集噪声样本平滑修正标签,降低误判影响。

方法:

  • 基于Sigmoid(​)计算平滑系数k。

  • 将真实标签与最近负类标签按比例加权混合,形成软标签。

公式:

  • 同时对损失函数也进行平滑处理。

第五章 实验部分

5.1 数据集

  • 训练集:MS1MV2、CASIA-WebFace(有合成10%、20%的闭集噪声版本)

  • 测试集:LFW、AgeDB、CFP-FP、IJB-B、IJB-C等主流基准数据集。

5.2 训练细节

  • 主干网络:IR-ResNet50

  • 损失函数基线:MV-Softmax

  • 优化器:SGD

  • 学习率调度:分阶段衰减


5.3 消融实验与超参数分析

  • τ阈值选择:最佳设为0.2

  • α参数(ASC中稳定阈值):最佳设为0.05

  • β参数(融合平衡系数):最佳设为0.9

  • 各模块贡献验证:完整使用ASC+SLC+LRF效果最佳。


5.4 对比实验

  • 在闭集噪声下:RepFace整体优于ArcFace、MV-Softmax、BoundaryFace等SOTA方法。

  • 鲁棒性验证:在20%噪声数据上,RepFace性能下降更小,展现更强的抗噪声能力。


第六章 总结

RepFace提出了一个创新的闭集噪声处理框架,通过:

  • 辅助噪声样本筛选

  • 样本划分与分类训练

  • 记忆式标签融合

  • 平滑式标签修正

极大地提升了面部识别模型在噪声环境下的性能和鲁棒性,达到了多个基准测试的SOTA水平。

相关推荐
东东oyey28 分钟前
搭建基于 ChatGPT 的问答系统
人工智能·chatgpt
tzc_fly39 分钟前
scGPT-spatial:持续预训练scGPT用于空间转录组
人工智能
亲持红叶1 小时前
transformer-实现解码器Decoder
人工智能·深度学习·transformer
未来之窗软件服务1 小时前
创意Python爱心代码分享
开发语言·python·仙盟创梦ide·程序员表白
Lounger661 小时前
23.合并k个升序序链表- 力扣(LeetCode)
python·leetcode·链表
碳酸的唐1 小时前
深度学习核心架构:探明四种基础神经网络
人工智能·深度学习·神经网络
缘友一世1 小时前
从广义线性回归推导出Softmax:理解多分类问题的核心
算法·机器学习·分类
番茄老夫子2 小时前
声纹监测技术在新能源汽车的应用场景解析
人工智能·汽车
搏博2 小时前
神经网络的基本概念与深度解析——基于生物机制的仿生建模与工程实现
人工智能·深度学习·神经网络·学习·算法·机器学习