研读论文——《RepFace：通过渐进式标签校正来改善面部的闭集噪声识别》

论文标题

[第一章背景介绍](#第一章背景介绍)

[1.1 面部识别的发展与挑战](#1.1 面部识别的发展与挑战)

[第二章标签噪声分类与处理方式](#第二章标签噪声分类与处理方式)

[2.1 标签噪声分类](#2.1 标签噪声分类)

[2.2 噪声处理策略](#2.2 噪声处理策略)

更具体一点：

为什么BoundaryFace搞不定模糊样本？

本文RepFace是怎么处理模糊样本的？

[第三章本文提出的方法------RepFace框架](#第三章本文提出的方法——RepFace框架)

[3.1 总体框架](#3.1 总体框架)

[第四章各模块详解](#第四章各模块详解)

[4.1 辅助样本清理（ASC）](#4.1 辅助样本清理（ASC）)

[4.2 样本划分（Sample Splitting）](#4.2 样本划分（Sample Splitting）)

[4.3 模糊样本标签融合（LRF）](#4.3 模糊样本标签融合（LRF）)

[4.4 平滑标签修正（SLC）](#4.4 平滑标签修正（SLC）)

[第五章实验部分](#第五章实验部分)

[5.1 数据集](#5.1 数据集)

[5.2 训练细节](#5.2 训练细节)

[5.3 消融实验与超参数分析](#5.3 消融实验与超参数分析)

[5.4 对比实验](#5.4 对比实验)

[第六章总结](#第六章总结)

论文标题

《RepFace: Refining Closed-Set Noise with Progressive Label Correction for Face Recognition》

第一章背景介绍

1.1 面部识别的发展与挑战

近年来，面部识别（Face Recognition, 简称FR）因在安全、监控、移动设备解锁等领域的应用迅猛发展。驱动面部识别进步的三大关键因素是：

大规模的人脸数据集（如MS-Celeb-1M, VGGFace2）
强大的骨干网络（如ResNet, MobileNet, Vision Transformer）
优秀的判别性损失函数（如ArcFace, CosFace）

然而，随着数据集规模的扩展，标签噪声（Label Noise）问题也随之加剧 ，尤其是闭集噪声（Closed-Set Noise）。噪声会显著影响模型性能，因此需要有效的噪声处理技术。

说明：

标签噪声（Label Noise）： 就是图像被标错了类别。比如一张张三的照片，错误地标成了李四。

闭集噪声（Closed-Set Noise） 是一种特殊的标签噪声 ，指的是：

图像虽然被标错了，但错标成了同一数据集里另一个人的身份。

比如数据集里有张三、李四、王五，

张三的照片被错标成李四，

这就是闭集噪声（因为李四也在这个数据集中）。

第二章标签噪声分类与处理方式

2.1 标签噪声分类

闭集噪声（Closed-Set Noise）：图像被错误标注为数据集中其他已有的类别。
开集噪声（Open-Set Noise）：图像的真实身份并不属于数据集中已有类别，但被错误归为某个已有类别。

2.2 噪声处理策略

两大主流方法：

噪声清理（Noise Cleaning）：检测并剔除噪声样本。
标签修正（Label Correction）：对噪声样本重新估计正确标签，使其继续参与训练。

现有问题：

针对开集噪声的方法多，但在实际中闭集噪声占多数，且影响更大。
现有闭集噪声方法（如BoundaryFace）依赖早期训练收敛，容易误判，无法有效处理模糊样本（Ambiguous Samples）。

说明：

模糊样本（Ambiguous Samples）

指的是介于干净样本和噪声样本之间的样本：

它们的特征和正确类别很接近 ，但又不是非常自信（不像干净样本那样高置信度）。

它们也不像明显噪声那样特别离谱，所以又不敢直接把它们当成噪声扔掉。

简单打个比方：

干净样本：自信满满，模型一眼认出来。

噪声样本：乱七八糟，模型认不出，明显是错的。

模糊样本：犹犹豫豫，模型觉得"好像对，但又好像有点不太对"。

更具体一点：

在论文里，作者用"正类中心 "和"最近负类中心 "的余弦相似度差 来衡量：

如果 < 0：是干净样本（靠近自己类别）

如果 >τ：是噪声样本（更接近其他类别）

如果 0<<τ：就是模糊样本（两边都不太远，不确定）

为什么BoundaryFace搞不定模糊样本？

因为BoundaryFace的思路是：

要等模型很有区分能力后，直接判断哪个是噪声。

但模糊样本"半对半错"，它既不像干净样本那么自信，也不像噪声样本那么明显，所以BoundaryFace容易把它们误当成干净样本继续训练 ➔ 后面模型就越来越被污染。

本文RepFace是怎么处理模糊样本的？

✅ RepFace不会直接丢掉模糊样本。

✅ 它通过标签融合（Label Robust Fusion），把模型过去的预测结果和原标签融合，慢慢让模糊样本也能被正确利用。

第三章本文提出的方法------RepFace框架

目标：

稳定早期训练，区分清晰、模糊和噪声样本，分别设计不同训练策略。

3.1 总体框架

RepFace方法主要包含四大模块：

ASC（Auxiliary Sample Cleaning）
样本划分（Sample Splitting）
模糊样本标签融合（Label Robust Fusion, LRF）
平滑标签修正（Smoothing Label Correction, SLC）

第四章各模块详解

4.1 辅助样本清理（ASC）

目的：在训练初期，利用人为添加的辅助噪声样本，帮助模型识别真正的噪声样本。

步骤：

在每个小批量中随机选M个样本，赋予随机标签（Auxiliary Samples）。
计算这些辅助样本与其伪标签中心的余弦相似度。
设定阈值η，区分干净样本（cosθ ≥ η）和噪声样本（cosθ < η）。
筛除疑似噪声样本，仅用干净样本训练。

公式：

解释：

M：辅助样本数量（每次随机选的数量）
：第i个辅助样本和它随机标签中心 之间的余弦相似度
：一个小的常数，用来稳定阈值，防止计算波动
：辅助样本的平均相似度，作为一个动态阈值标准

👉 作用：划定一条线，小于这条线的可能是噪声，大于这条线的可能是干净样本。

解释：

：当前真实样本与其真实标签中心的余弦相似度
：指示器函数
- =1 ➔ 认为是干净样本
- =0 ➔ 认为是噪声样本

👉 作用：根据刚才设定的阈值η，把真实样本分类为干净或噪声。

如果相似度比阈值高，就留下来训练；
如果相似度比阈值低，就当成噪声样本，屏蔽它对模型的影响。

4.2 样本划分（Sample Splitting）

依据：

用样本到正类中心与最近负类中心的余弦相似度差（）划分：

公式：

含义：最近负类中心与正类中心的相似度差。

划分标准：

：干净样本
：模糊样本
：闭集噪声样本

4.3 模糊样本标签融合（LRF）

目的：充分利用模糊样本，避免直接使用错误标签。

方法：

采用记忆库（Memory Bank）累积每次模型对模糊样本的预测。
用过去的预测结果与真实标签进行融合，生成软标签（Soft Label）。

融合公式：

符号	代表含义
	融合后的软标签（soft label）
	模型过去多次预测累计起来的概率分布（记忆库Memory Bank里存的预测）
	原始的真实标签（one-hot形式，比如第3类就是 $0,0,1,0,0,...$ ）
	融合比例超参数，控制相信预测多少，相信真实标签多少（论文设置β=0.9）

其中p是累计预测生成的软标签，是真实标签。

4.4 平滑标签修正（SLC）

目的：为检测出的闭集噪声样本平滑修正标签，降低误判影响。

方法：

基于Sigmoid()计算平滑系数k。
将真实标签与最近负类标签按比例加权混合，形成软标签。

公式：

同时对损失函数也进行平滑处理。

第五章实验部分

5.1 数据集

训练集：MS1MV2、CASIA-WebFace（有合成10%、20%的闭集噪声版本）
测试集：LFW、AgeDB、CFP-FP、IJB-B、IJB-C等主流基准数据集。

5.2 训练细节

主干网络：IR-ResNet50
损失函数基线：MV-Softmax
优化器：SGD
学习率调度：分阶段衰减

5.3 消融实验与超参数分析

τ阈值选择：最佳设为0.2
α参数（ASC中稳定阈值）：最佳设为0.05
β参数（融合平衡系数）：最佳设为0.9
各模块贡献验证：完整使用ASC+SLC+LRF效果最佳。

5.4 对比实验

在闭集噪声下：RepFace整体优于ArcFace、MV-Softmax、BoundaryFace等SOTA方法。
鲁棒性验证：在20%噪声数据上，RepFace性能下降更小，展现更强的抗噪声能力。

第六章总结

RepFace提出了一个创新的闭集噪声处理框架，通过：

辅助噪声样本筛选
样本划分与分类训练
记忆式标签融合
平滑式标签修正

极大地提升了面部识别模型在噪声环境下的性能和鲁棒性，达到了多个基准测试的SOTA水平。

研读论文——《RepFace：通过渐进式标签校正来改善面部的闭集噪声识别》

论文标题

第一章 背景介绍

1.1 面部识别的发展与挑战

第二章 标签噪声分类与处理方式

2.1 标签噪声分类

2.2 噪声处理策略

更具体一点：

为什么BoundaryFace搞不定模糊样本？

本文RepFace是怎么处理模糊样本的？

第三章 本文提出的方法------RepFace框架

3.1 总体框架

第四章 各模块详解

4.1 辅助样本清理（ASC）

4.2 样本划分（Sample Splitting）

4.3 模糊样本标签融合（LRF）

4.4 平滑标签修正（SLC）

第五章 实验部分

5.1 数据集

5.2 训练细节

5.3 消融实验与超参数分析

5.4 对比实验

第六章 总结

第一章背景介绍

第二章标签噪声分类与处理方式

第三章本文提出的方法------RepFace框架

第四章各模块详解

第五章实验部分

第六章总结