Data Uncertainty Learning in Face Recognition 论文阅读
- Abstract
- [1. Introduction](#1. Introduction)
- [2. Related Work](#2. Related Work)
- [3. Methodology](#3. Methodology)
-
- [3.1. Preliminaries](#3.1. Preliminaries)
- [3.2. Classification-based DUL for FR](#3.2. Classification-based DUL for FR)
- [3.3. Regression-based DUL for FR](#3.3. Regression-based DUL for FR)
- [3.4. Discussion of Related Works](#3.4. Discussion of Related Works)
- [4. Experiments](#4. Experiments)
-
- [4.1. Datasets and Implementation Details](#4.1. Datasets and Implementation Details)
- [4.2. Comparing DUL with Deterministic Baselines](#4.2. Comparing DUL with Deterministic Baselines)
- [4.3. Comparing DUL with PFE](#4.3. Comparing DUL with PFE)
- [4.4. Comparison with State-Of-The-Art](#4.4. Comparison with State-Of-The-Art)
- [4.5. Understand Uncertainty Learning](#4.5. Understand Uncertainty Learning)
- [4.6. Other Experiments](#4.6. Other Experiments)
- [5. Conclusion](#5. Conclusion)
文章信息:
发表于:2020CVPR
源码(并不是官方提供的):https://github.com/Ontheway361/dul-pytorch
Abstract
数据不确定性的建模对于噪声图像非常重要,但在人脸识别中很少被探讨。开创性工作[35]通过将每个人脸图像的嵌入表示为高斯分布来考虑不确定性,并且效果相当显著。然而,该方法使用来自现有模型的固定特征(高斯的均值),仅估计方差,并依赖于一种临时的且成本较高的度量方式。因此,它并不容易使用,而且不清楚不确定性如何影响特征学习。本工作首次将数据不确定性学习应用于人脸识别,旨在同时学习特征(均值)和不确定性(方差)。我们提出了两种学习方法,既易于使用,又在具有挑战性的无约束场景中超越了现有的确定性方法和[35]。我们还提供了深入的分析,探讨了引入不确定性估计如何帮助减少噪声样本的不利影响,并影响特征学习的过程。
1. Introduction
图1:(a)确定性模型给出点嵌入,未考虑数据不确定性;(b)概率模型给出分布估计,通过估计的均值和方差来参数化。PFE利用预训练的点嵌入作为均值µ,仅学习每个样本的不确定性σ;(c)我们的方法同时学习σ和µ,从而在潜在空间中实现更好的类内紧凑性和类间可分性。不同的类用蓝色或红色标记。最佳效果请在彩色模式下查看。
数据不确定性捕捉了数据中固有的"噪声"。在计算机视觉应用中建模这种不确定性非常重要[22],例如在人脸识别中,因为噪声在图像中普遍存在。
大多数人脸识别方法将每个面部图像表示为潜在空间中的一个确定性点嵌入[7, 27, 41, 42, 33]。通常,相同ID的高质量图像会被聚类在一起。然而,对于噪声较大的面部图像,难以估计出准确的点嵌入,这些图像通常会偏离聚类,并在嵌入空间中具有较大的不确定性。图1(a)展示了这一点。正样本远离其类别,并且靠近一个噪声较大的负样本,导致了匹配错误。
概率人脸嵌入(PFE)[35]是第一个在人脸识别中考虑数据不确定性的工作。对于每个样本,它在潜在空间中估计一个高斯分布,而不是一个固定的点。具体来说,给定一个预训练的人脸识别(FR)模型,每个样本的高斯均值固定为FR模型产生的嵌入。一个额外的分支被附加到FR模型上,并训练来估计方差。训练是通过一种新的相似度度量------互信息得分(mutual likelihood score,MLS)驱动的,MLS用于衡量两个高斯分布之间的"似然性"。研究表明,PFE对高质量样本估计较小的方差,而对噪声较大的样本估计较大的方差。结合MLS度量,PFE能够减少噪声样本的匹配错误。图1(b)展示了这一点。尽管PFE有效,但其局限性在于它并没有学习嵌入特征(均值),而仅仅学习不确定性。因此,不清楚不确定性如何影响特征学习。此外,传统的相似度度量(如余弦距离)不能使用,需要更复杂的MLS度量,这增加了运行时和内存的消耗。
本工作首次将数据不确定性学习(DUL)应用于人脸识别,旨在同时学习特征(均值)和不确定性(方差)。如图1(c)所示,这种方法改善了特征,使得同一类中的实例更加紧凑,不同类中的实例更加分离。在这种情况下,学习到的特征可以直接用于传统的相似度度量,不再需要MLS度量。
具体来说,我们提出了两种学习方法。第一种是基于分类的方法,它从头开始学习一个模型。第二种是基于回归的方法,它改进了现有的模型,类似于PFE。我们从图像噪声的角度讨论了学习到的不确定性如何影响这两种方法中的模型训练。我们提供了深刻的分析,认为学习到的不确定性通过自适应地减少噪声训练样本的负面影响,能够改善身份嵌入的学习。
综合实验表明,我们提出的方法在大多数公共基准测试中优于现有的确定性模型和PFE,提升了人脸识别的性能。在低质量人脸图像的基准测试中,性能提升尤为显著,这表明具有数据不确定性学习的模型更适用于无约束的人脸识别场景,因此对实际任务具有重要意义。
2. Related Work
Uncertainty in Deep Learning
不确定性的性质以及如何处理不确定性的问题,长期以来一直是为了帮助解决可靠性评估和基于风险的决策问题而广泛研究的领域 [9, 31, 8]。近年来,深度学习中的不确定性问题受到了越来越多的关注。许多技术被提出以研究不确定性在深度神经网络中的具体表现 [3, 10, 11, 22]。具体到深度不确定性学习,不确定性可以分为模型不确定性,捕捉深度神经网络中参数的噪声,以及数据不确定性,衡量给定训练数据中固有的噪声。最近,许多计算机视觉任务,如语义分割 [19, 21]、目标检测 [6, 25] 和行人重识别 [50],已将深度不确定性学习引入卷积神经网络(CNN)中,以提高模型的鲁棒性和可解释性。在人脸识别任务中,也有一些研究提出利用模型不确定性来分析和学习人脸表示 [13, 51, 23]。其中,PFE [35] 是首个在面部识别任务中考虑数据不确定性的工作。
Noisy Data Training
大规模数据集,如 CASIAWebFace [47]、Vggface2 [5] 和 MS-Celeb-1M [14],在训练深度卷积神经网络(CNN)进行人脸识别中起着重要作用。不可避免地,这些在线收集的人脸数据集存在大量标签噪声------一些样本错误地被赋予了数据集中其他类别的标签。一些研究探讨了标签噪声的影响 [39],以及如何在这种情况下训练鲁棒的人脸识别模型 [17, 44, 29]。Yu 等人 [50] 在行人重识别中提出,来自低质量图像的图像噪声也会对训练的模型产生不利影响。我们的研究方法并非专门为噪声数据训练而提出,然而,我们提供了有关从图像噪声角度分析所学数据不确定性如何影响模型训练的深刻见解。此外,我们通过实验验证了所提出的方法在噪声数据集上表现得更加鲁棒。
3. Methodology
在第 3.1 节中,我们首先揭示了在连续映射空间以及特定人脸数据集中固有的数据不确定性。在第 3.2 节中,我们提出了 DUL c l s _\mathrm{cls} cls,该方法将数据不确定性学习应用于标准的人脸分类模型。接着,在第 3.3 节中,我们提出了另一种基于回归的方法 DUL r g s _\mathrm{rgs} rgs,以改进现有的确定性模型。最后,在第 3.4 节中,我们阐明了所提出的方法与现有工作的不同之处。
3.1. Preliminaries
Uncertainty in Continuous Mapping Space
假设存在一个连续映射空间 X → Y \mathcal{X} \to \mathcal{Y} X→Y,其中每个 y i ∈ Y y_i \in \mathcal{Y} yi∈Y 都受到某种输入依赖噪声的干扰,即 n ( x i ) , x i ∈ X n(\mathbf{x}_i), \mathbf{x}i \in \mathcal{X} n(xi),xi∈X,那么我们可以说这个映射空间本身就包含了数据不确定性。考虑一个简单的情况,噪声是加性的,并且来自于均值为零且与 x x x 相关的高斯分布。则每个观察目标 y i = f ( x i ) + ϵ σ ( x i ) y{i} = f( \mathbf{x} _{i}) + \epsilon \sigma ( \mathbf{x} _{i}) yi=f(xi)+ϵσ(xi),其中 ϵ ∼ N ( 0 , I ) \epsilon \sim \mathcal{N}(0, \mathbf{I}) ϵ∼N(0,I), f ( ⋅ ) f(\cdot) f(⋅) 是我们希望找到的嵌入函数。传统的回归模型仅训练来逼近给定输入 x i \mathbf{x}_i xi 时的 f ( x i ) f(\mathbf{x}_i) f(xi),然而,带有数据不确定性学习的回归模型还会估计 σ ( x i ) \sigma(\mathbf{x}_i) σ(xi),表示预测值 f ( x i ) f(\mathbf{x}_i) f(xi) 的不确定性(见图 2 (a))。这一技术已经被许多任务所采用 [22,4,30,12,2]。
Uncertainty in Face Datasets
图2:(a):观察数据对中的目标 y y y(红点)受到 x x x 依赖噪声的污染。数据不确定性回归将给出"噪声水平"(绿色阴影),超出特定预测值(绿色线);(b):每行展示的是标记为相同身份的样本。与其他同类样本相比,红框中的样本被视为噪声数据。最佳效果请在彩色下查看。
类似于上面的连续映射空间,面部数据集也携带数据不确定性。这里, X \mathcal{X} X 是连续的图像空间,而 Y Y Y 是离散的身份标签。通常,从网络收集的大量面部图像具有视觉模糊性(如对齐不良、严重模糊或遮挡)。很难将这些低质量的样本从训练集中筛选出来(见图2,(b))。在深度学习时代,每个样本都被表示为潜在空间中的嵌入 z i \mathbf{z}_i zi。如果我们假设每个 x i ∈ X \mathbf{x}_i \in \mathcal{X} xi∈X 都有一个理想的嵌入 f ( x i ) f(\mathbf{x}_i) f(xi),该嵌入主要代表其身份,并且不受 x i \mathbf{x}_i xi 中与身份无关的信息的影响,那么 DNNs 预测的嵌入可以重新表示为 z i = f ( x i ) + n ( x i ) \mathbf{z}_i = f(\mathbf{x}_i) + n(\mathbf{x}_i) zi=f(xi)+n(xi),其中 n ( x i ) n(\mathbf{x}_i) n(xi) 是 x i \mathbf{x}_i xi 在嵌入空间中的不确定性信息。
3.2. Classification-based DUL for FR
Figure 3: Overview of the proposed DUL c l s _\mathrm{cls} clsFR model.
我们提出了DUL c l s _\mathrm{cls} cls,首先将数据不确定性学习引入到可以端到端训练的人脸分类模型中。
Distributional Representation
具体来说,我们将每个样本 x i \mathbf{x}_i xi 在潜在空间中的表示 z i z_i zi 定义为一个高斯分布。
其中,高斯分布的参数(均值和方差)是输入依赖的,由 C N N s {CNNs} CNNs预测: μ i = f θ 1 ( x i ) , σ i = f θ 2 ( x i ) \boldsymbol{\mu}i=f{\boldsymbol{\theta}_1}(\mathbf{x}_i), \boldsymbol{\sigma}i=f{\boldsymbol{\theta}_2}(\mathbf{x}_i) μi=fθ1(xi),σi=fθ2(xi),其中 θ 1 \boldsymbol{\theta}_1 θ1和 θ 2 \boldsymbol{\theta}_2 θ2分别是与输出 μ i \boldsymbol{\mu}_i μi和 σ i \boldsymbol{\sigma}_i σi相关的模型参数。这里需要注意的是,预测的高斯分布是对角多元正态分布。 μ i \boldsymbol{\mu}_i μi可以看作是人脸的身份特征,而 σ i \boldsymbol{\sigma}_i σi则表示预测的 μ i \boldsymbol{\mu}_i μi的 uncertainty。现在,每个样本的表示不再是确定性的点嵌入,而是在潜在空间中从 N ( z i ; μ i , σ i 2 I ) \mathcal{N}(\mathbf{z}_i;\boldsymbol{\mu}_i,\boldsymbol{\sigma}_i^2\mathbf{I}) N(zi;μi,σi2I)中采样的随机嵌入。然而,采样操作不可微,这会阻碍在模型训练过程中梯度的反向传播。为了使模型能够像平常一样进行梯度更新,我们使用了重参数化技巧[24]。具体来说,我们首先从一个与模型参数无关的正态分布中采样一个随机噪声 ϵ \epsilon ϵ,然后生成 s i s_i si作为等效的采样表示(参见图3以获取整体流程)。
Classification Loss
由于 s i s_i si 是每张图像 x i \mathbf{x}_i xi 的最终表示,我们将其输入到分类器中,以最小化以下 softmax 损失函数。
在实践中,我们使用 L s o f t m a x \mathcal{L}_{softmax} Lsoftmax 的不同变体来训练我们的人脸分类模型,这些变体包括加性边界余弦损失(additive margin cosine loss)[40]、特征 ℓ 2 \ell2 ℓ2 归一化[32] 和 ArcFace[7]。
KL-Divergence Regularization
方程2表明,在训练期间,所有身份嵌入(identity embeddings) μ i \boldsymbol{\mu}_i μi 都会受到 σ i \boldsymbol{\sigma}_i σi 的干扰,这将促使模型预测所有样本的 σ \boldsymbol{\sigma} σ 值都很小,以便抑制 s i s_i si 中的不稳定成分,从而使得方程3最终仍然能够收敛。在这种情况下,随机表示可以重新表述为 s i = μ i + c \mathbf{s}_i = \boldsymbol{\mu}_i + c si=μi+c,这实际上退化为了原始的确定性表示 2 ^2 2。受变分信息瓶颈(variational information bottleneck)[1]的启发,我们在优化过程中引入了一个正则化项,通过明确约束 N ( μ i , σ i ) \mathcal{N}(\boldsymbol{\mu}_i,\boldsymbol{\sigma}_i) N(μi,σi) 接近正态分布 N ( 0 , I ) \mathcal{N}(\mathbf{0},\mathbf{I}) N(0,I),这两个分布之间的接近程度通过它们之间的Kullback-Leibler散度(KLD)来衡量。这个KLD项是,
注意到,在限制条件 σ i ( l ) ∈ ( 0 , 1 ) \boldsymbol{\sigma}i^{(l)}\in(0,1) σi(l)∈(0,1)(其中 l l l 指嵌入的第 l l l 维)下,Kullback-Leibler 散度损失 L k l \mathcal{L}{kl} Lkl 关于 σ \sigma σ 是单调递减的。 L k l \mathcal{L}_{kl} Lkl 与方程3一起起到了一个很好的"平衡器"作用。具体来说,它阻止了深度不确定性学习分类器(DUL c l s _\mathrm{cls} cls)对所有样本预测过大的方差,因为这可能会导致 μ i \boldsymbol{\mu}i μi 受到极大的破坏,进而使得 softmax 损失 L s o f t m a x \mathcal{L}{softmax} Lsoftmax 难以收敛。同时,DUL c l s \mathrm{cls} cls 也被阻止对所有样本预测过小的方差,因为这会导致更大的 L k l \mathcal{L}{kl} Lkl,进而反过来惩罚模型。
最后,我们使用 L c l s = L s o f t m a x + λ L k l \mathcal{L}{cls} = \mathcal{L}{softmax} + \lambda\mathcal{L}_{kl} Lcls=Lsoftmax+λLkl 作为总损失函数,其中 λ \lambda λ 是一个权衡超参数,其进一步分析见第4.6节。
3.3. Regression-based DUL for FR
DUL c l s _{cls} cls 是一个具有数据不确定性学习能力的通用分类模型。接下来,我们提出另一种基于回归的方法,即 DUL r g s _{\mathrm{rgs}} rgs,它通过数据不确定性学习来改进现有的人脸识别(Face Recognition,简称 FR)模型。
图 4:所提出的 DUL rgs \text{rgs} rgs 模型概述。卷积层中的所有参数由确定性 FR 模型预训练,并在 DUL(\text{rgs}) 训练过程中保持固定。
Difficulty of Introducing Data Uncertainty Regression to FR
对于人脸识别(Face Recognition,简称 FR)而言,DUL r g s _\mathrm{rgs} rgs 的灵感来源于针对连续映射空间 X → Y \mathcal{X}\to\mathcal{Y} X→Y 的数据不确定性回归[26,22],如第3.1节所述。然而,人脸数据集中的映射空间是由连续的图像空间 X \mathcal{X} X 和离散的身份标签 Y \mathcal{Y} Y 构成的,这不能通过数据不确定性回归直接进行拟合。关键在于,身份标签 y c ∈ Y y_c \in Y yc∈Y 不能作为连续的目标向量来进行近似。这一困难也在《PFE》[35]中被提及,但并未得到解决。
Constructing New Mapping Space for FR
我们为人脸数据构建了一个新的目标空间,该空间是连续的,并且最重要的是,它与原始离散目标空间 Y Y Y 几乎等价,这有助于建立正确的映射关系。具体来说,我们先预训练一个基于分类的确定性人脸识别模型,然后利用其分类器层的权重 W ∈ R D × C \mathcal{W} \in \mathbb{R}^{D \times C} W∈RD×C 作为期望的目标向量 3 ^3 3。由于 W \mathcal{W} W 中的每个 w i \mathbf{w}_i wi 都可以被视为同一类嵌入的典型中心,因此 { X , W } \{\mathcal{X}, \mathcal{W}\} {X,W} 可以被视为新的等价映射空间。与第3.1节中描述的连续映射空间中的不确定性类似, { X , W } \{\mathcal{X}, \mathcal{W}\} {X,W} 也存在固有的噪声。我们可以将 x i ∈ X \mathbf{x}_i \in \mathcal{X} xi∈X 到 w i ∈ W \mathbf{w}_i \in \mathcal{W} wi∈W 的映射表示为 w i = f ( x i ) + n ( x i ) \mathbf{w}_i = f(\mathbf{x}_i) + n(\mathbf{x}_i) wi=f(xi)+n(xi),其中 f ( x i ) f(\mathbf{x}_i) f(xi) 是"理想"的身份特征,而每个观察到的 w i \mathbf{w}_i wi 都受到了与输入相关的噪声的干扰。
Distributional Representation
接下来,我们可以通过数据不确定性回归来估计上述的 f ( x i ) f(\mathbf{x}_i) f(xi) 和 n ( x i ) n(\mathbf{x}_i) n(xi)。具体而言,假设似然函数服从高斯分布: p ( z i ∣ x i ) = N ( z i ; μ i , σ i 2 I ) p(\mathbf{z}_i|\mathbf{x}_i)=\mathcal{N}(\mathbf{z}_i;\boldsymbol{\mu}_i,\boldsymbol{\sigma}_i^2\mathbf{I}) p(zi∣xi)=N(zi;μi,σi2I),其中 μ i \boldsymbol{\mu}_i μi 和 σ i \boldsymbol{\sigma}_i σi 也由神经网络中的权重参数化 4 ^{4} 4(见图4)。如果我们将每个 w c \mathbf{w}_c wc 作为目标,那么我们应该为每个 x i \mathbf{x}_i xi 最大化以下似然函数:
实际上,我们采用如下的对数似然,
假设 x i , i ∈ 1 , 2 , ... \mathbf{x}_i, i \in 1, 2, \dots xi,i∈1,2,... 是独立同分布的 ( i i d . ) (iid.) (iid.),则所有数据点的似然函数为 ∏ c ∏ i ln p ( w c ∣ x i ∈ c , θ ) \prod_c \prod_i \ln p(\mathbf{w}c|\mathbf{x}{i \in c}, \boldsymbol{\theta}) ∏c∏ilnp(wc∣xi∈c,θ)。实际上,我们训练网络来预测对数方差 r i : = ln σ i 2 \mathbf{r}_i := \ln \boldsymbol{\sigma}_i^2 ri:=lnσi2,以在随机优化过程中稳定数值计算。最后,似然最大化被重新表述为成本函数的最小化。
这里, D D D、 N N N 和 l l l 分别表示嵌入维度的大小、数据点的数量以及每个特征向量的第 l l l 维。我们在优化过程中省略了常数项 D 2 ln 2 π \frac{D}{2} \ln 2\pi 2Dln2π。
Loss Attenuation Mechanism
通过定性分析公式6,我们学到的方差 σ i \sigma_i σi 实际上可以视为一种不确定性评分,衡量所学习的身份嵌入 μ i \boldsymbol{\mu}_i μi 对于第 c t h c^{th} cth 类的归属信心。具体而言,对于那些位于类中心 w c \mathbf{w}_c wc 较远的模糊的 μ i \boldsymbol{\mu}_i μi,DUL rgs _\text{rgs} rgs 会估计较大的方差来抑制误差项 ( w c − μ ) 2 2 σ 2 \frac{(\mathbf{w}_c-\boldsymbol{\mu})^2}{2\boldsymbol{\sigma}^2} 2σ2(wc−μ)2,而不是过拟合这些噪声样本。DUL r g s _\mathrm{rgs} rgs 被鼓励避免对所有样本预测较大的方差,因为这可能会导致对 ( w c − μ ) 2 (\mathbf{w}_c-\boldsymbol{\mu})^2 (wc−μ)2 的拟合不足,且较大的 log σ \log\boldsymbol{\sigma} logσ 项将反过来惩罚模型。同时,DUL rgs _\text{rgs} rgs 也被避免对所有样本预测非常小的方差,这可能会导致误差项指数级增加。因此,公式6使得DUL r g s _\mathrm{rgs} rgs 能够调整误差项的加权,这使得模型能够学习减少由低质量样本引起的模糊 μ i \boldsymbol{\mu}_i μi 的影响。
3.4. Discussion of Related Works
我们首先讨论 DUL cls _\text{cls} cls 与变分信息瓶颈(Variational Information Bottleneck, VIB)[1] 的联系。VIB [1] 是在深度学习框架下对信息瓶颈(Information Bottleneck, IB)原理 [38] 的一种变分近似。VIB 旨在从输入数据 X X X到潜在表示 Z Z Z 寻求一种随机映射,以实现 Z Z Z 的基本权衡:既使得 Z Z Z 尽可能简洁,又保留足够的能力来预测标签 Y Y Y [38]。
需要注意的是, L cls L_\text{cls} Lcls 与 VIB 的目标函数类似。然而,我们从数据不确定性(Data Uncertainty)的角度分析了这种分类方法,而 VIB 则是从信息瓶颈的角度推导出这一目标函数。
接下来,我们澄清 DUL rgs _\text{rgs} rgs 和 PFE [35] 之间的一些区别。尽管 PFE 和 DUL rgs _\text{rgs} rgs 都形式上将输入的不确定性编码为方差表示,但它们的核心思想有所不同。PFE 本质上度量的是每一对正样本 { x i , x j } \{x_i, x_j\} {xi,xj} 在共享相同潜在嵌入空间的情况下的似然性:即 p ( z i = z j ) p(z_i = z_j) p(zi=zj)。而 DUL rgs _\text{rgs} rgs 则将传统的最小二乘回归(Least Square Regression)方法解释为一个最大似然估计(Maximum Likelihood Estimation,MLE)问题,并结合了数据不确定性回归模型。
最后,DUL cls _\text{cls} cls 和 DUL rgs _\text{rgs} rgs 都学习身份表示 μ \mu μ 以及不确定性表示 σ \sigma σ,这确保了我们预测的 μ \mu μ 可以通过常用的匹配度量进行直接评估。然而,PFE 必须使用互信息似然得分(Mutual Likelihood Score, MLS)作为匹配度量,以提高确定性模型的性能,因为在 PFE 中并没有学习身份表示。
4. Experiments
在本节中,我们首先在标准的人脸识别基准上评估了所提方法。然后,我们提供定性和定量分析,探讨学习到的数据不确定性意味着什么,以及数据不确定性学习如何影响人脸识别模型的学习。最后,我们在噪声较大的 MS-Celeb-1M 数据集上进行实验,证明我们的方法比确定性方法表现得更加稳健。
4.1. Datasets and Implementation Details
我们描述了使用的公共数据集,以及我们的实现细节。
Datasets
我们使用 MS-Celeb-1M 数据集作为训练集,其中包含 3,648,176 张图像,涉及 79,891 个主体。为了评估 DUL cls/rgs _\text{cls/rgs} cls/rgs 的性能,我们使用了 2 个基准测试,包括 LFW [18] 和 MegaFace [20],以及 3 个无约束的基准测试:CFP [34]、YTF [43] 和 IJB-C [28],并遵循标准的评估协议进行测试。
Architecture
我们在 ResNet [15] 骨干网络上训练基准模型,并使用 SE-blocks [16]。基准模型的头部结构为:BackBone-Flatten-FC-BN,嵌入维度为 512,丢弃概率为 0.4,用于输出嵌入特征。与基准模型相比,DUL cls _\text{cls} cls 在其基础架构上增加了一个额外的分支,用于输出方差,并与主干共享相同的架构。DUL rgs _\text{rgs} rgs 也有一个额外的分支,其架构为:BackBone-Flatten-FC-BN-ReLU-FC-BN-exp,用于输出方差。
Training
所有基准模型和 DUL cls _\text{cls} cls 模型均使用 SGD 优化器进行训练,动量为 0.9,权重衰减为 0.0001,批量大小为 512,训练 210,000 步。我们使用三角形学习率策略 [36],最大学习率为 0.1,基础学习率为 0。在大多数 DUL cls _\text{cls} cls 模型中,我们将权衡超参数 λ 设置为 0.01。
对于提出的 DUL rgs _\text{rgs} rgs,我们首先训练基准模型 210,000 步,然后固定所有卷积层的参数(步骤 1)。接着,我们从头开始训练均值分支和方差分支,继续训练 140,000 步,批量大小为 256(步骤 2)。在步骤 2 中,我们设置学习率从 0.01 开始,然后在 56,000 步和 84,000 步时分别降低到 0.001 和 0.0001。
4.2. Comparing DUL with Deterministic Baselines
在这一部分,所有基准模型都使用 ResNet18 骨干网络 [15] 进行训练,并配备了不同变种的 softmax 损失函数,即 AM-Softmax [40]、ArcFace [7] 和 L2-Softmax [32]。在训练过程中,嵌入特征和分类器中的权重都进行了 ℓ2 归一化。
我们提出的 DUL cls _\text{cls} cls 模型使用相同的骨干网络和损失函数进行训练。我们提出的 DUL rgs _\text{rgs} rgs 模型则基于不同的预训练基准模型进行训练,具体内容如第 4.1 节所述。
表 1 报告了基准模型("Original")和提出的 DUL 模型在测试中的结果。评估使用了余弦相似度。我们提出的方法在大多数基准测试中优于基准确定性模型。这表明,提出的方法在不同的最先进损失函数上是有效的。这些结果表明,结合数据不确定性(我们方法中的 σ \sigma σ)训练得到的身份嵌入(我们方法中的 μ \mu μ)相比基准模型估计的点嵌入,表现出更好的类内紧凑性和类间可分性,尤其是在那些无约束的基准测试上:CFP(包含正面/侧面照片)和 YTF/IJB-C(大多数为从 YouTube 视频收集的模糊照片),与大多数清晰正面照片的基准(LFW 和 MegaFace)相比。
提出的 DUL 在 IJB-C 基准的验证协议上取得了最显著的提升,而 IJB-C 基准也是最具挑战性的。因此,我们绘制了真实接受率(TPR)和误接受率(FPR)随阈值变化的表现。如图 5 所示,DUL cls _\text{cls} cls 在不同匹配阈值设置下,比基准模型取得了更高的 TPR 和更低的 FPR。此外,设置较低的 FPR 时,DUL cls _\text{cls} cls 在 TPR 上表现得更好。图 5 还显示了基准模型和 DUL cls _\text{cls} cls 中误接受的绝大多数情况。我们可以看到,DUL cls _\text{cls} cls解决了更多由于极端噪声引起的假阳性(FP)情况,而这些假阳性通常出现在基准模型中。这表明,具有数据不确定性学习的模型在无约束的人脸识别场景中比确定性模型更具适用性。
我们对DUL rgs _\text{rgs} rgs也有类似的结论。
图 5:上图:IJB-C 上 TPR 和 FPR 与阈值的关系;下图:基准模型中主要发生的误接受情况(左);DUL cls _\text{cls} cls 中主要发生的误接受情况(右)。基准模型和 DUL cls _\text{cls} cls 都是在 MS-Celeb-1M 数据集上使用 ResNet18 和 AM-Softmax 训练的。最佳效果请在彩色模式下查看。
4.3. Comparing DUL with PFE
为了进行比较,我们根据 [35] 中推荐的实现细节重新实现了 PFE,应用于所有基准模型。我们注意到,我们的重新实现与 [35] 中的结果相似或略有更好的表现。我们的 DUL cls/rgs _\text{cls/rgs} cls/rgs 在模板中使用了平均池化聚合特征,并通过余弦相似度进行评估。与 PFE 相比,我们提出的 DUL cls _\text{cls} cls 在所有情况下均取得了更好的性能,而提出的 DUL rgs _\text{rgs} rgs 也表现出具有竞争力的性能。结果如表 1 所示。
PFE 将由确定性人脸识别(FR)模型学习到的点嵌入解释为其输出分布估计的均值,并且仅为每个样本学习不确定性(方差)。因此,PFE 必须使用 MLS 度量,考虑到预测的方差。尽管 PFE 在精度更高的匹配度量帮助下取得了更好的结果,但它在匹配时仍然面临更高的计算复杂度。具体来说,对于 6000 对人脸配对的验证(LFW),标准的余弦度量通过矩阵乘法耗时不到 1 秒,而 MLS 则需要 1 分 28 秒,且在两块 GTX-1080 上运行。
4.4. Comparison with State-Of-The-Art
为了与最先进的方法进行比较,我们使用更深且更强大的骨干网络 ResNet64,并在 MS-Celeb-1M 数据集上使用 AM-Softmax 损失进行训练,作为我们的基准模型。然后,我们按照第 4.1 节所述的设置训练提出的 DUL 模型。
结果如表 2 所示。需要注意的是,基准模型在 LFW 和 CFP-FP 上的表现已经饱和,在这些任务中数据不确定性学习的优势并不明显。然而,DUL cls/rgs _\text{cls/rgs} cls/rgs 在 YTF 和 MegaFace 上仍然略微提高了准确性。表 3 则报告了不同方法在 IJB-C 上的结果。PFE 和 DUL 相比基准模型都取得了显著更好的表现。
4.5. Understand Uncertainty Learning
在这一部分中,我们定性和定量地分析了所提出的DUL,以获得更多关于数据不确定学习的见解。
What is the meaning of the learned uncertainty?
估计的不确定性与人脸图像的质量密切相关,这对于 DUL cls _\text{cls} cls 和 DUL rgs _\text{rgs} rgs 都是如此。在 PFE [35] 中也观察到了这一点。为了可视化,我们在图 6 中展示了不同数据集的学习到的不确定性。结果表明,随着图像质量的下降,学习到的不确定性增加。这个学习到的不确定性可以看作是模型估计的相应身份嵌入的质量,衡量预测的人脸表示与其真实(或正确)点位置在潜在空间中的接近程度。
因此,数据不确定性学习为人脸识别带来了两个优势。首先,学习到的方差可以作为"风险指示器",当估计的方差非常高时,提醒人脸识别系统输出的决策是不可靠的。其次,学习到的方差还可以作为图像质量评估的度量。在这种情况下,我们注意到,像以前那样训练一个需要显式质量标签的单独质量评估模型是不必要的。
图 6:DUL rgs _\text{rgs} rgs 在不同数据集上的不确定性分布。DUL cls _\text{cls} cls 中也观察到了类似的不确定性分布。最佳效果请在彩色模式下查看。
How the learned uncertainty affect the FR model?
在这一部分,我们试图揭示学习到的数据不确定性如何影响模型训练,并帮助获得更好的特征嵌入的机制。
我们根据 DUL cls _\text{cls} cls 估计的不确定性程度,将 MS-Celeb-1M 数据集中的训练样本分为三类:低方差的易样本、中等方差的半难样本和大方差的难样本。我们分别计算了基准模型和 DUL cls _\text{cls} cls 产生的所有误分类样本中,三类样本的误分类比例。图 7 显示,与基准模型相比,我们的 DUL cls _\text{cls} cls 对易样本和半难样本产生了相对较少的误分类情况。然而,对于那些带有极端噪声的难样本,基准模型在处理时产生了较少的误分类情况,而 DUL cls _\text{cls} cls 的误分类情况较多。这表明,具有数据不确定性学习的人脸识别网络更加关注那些应该被正确分类的训练样本,同时"放弃"那些有害的样本,而不是对其过拟合。这也支持了我们在第 3.2 节中的讨论。
我们还对 DUL rgs _\text{rgs} rgs 进行了类似的实验。我们分别计算了基准模型和 DUL rgs _\text{rgs} rgs中,类中心 w c \mathbf{w}_c wc 与其类内估计的身份嵌入 μ i ∈ c \boldsymbol{\mu}_i \in c μi∈c 之间的平均欧氏距离。如图 8 所示,DUL rgs _\text{rgs} rgs将易样本和半难样本拉近到它们的类中心,同时将难样本推得更远。这也支持了我们在第 3.3 节中的讨论,即方程 (6) 通过相对于 σ \sigma σ 的自适应加权机制,有效地防止了模型对极端噪声样本的过拟合。
4.6. Other Experiments
Impact of hyper-parameter of DUL cls _\text{cls} cls
在这一部分,我们定性分析了 DUL cls _\text{cls} cls 中的权衡超参数 λ \lambda λ 控制的内容。如 VIB [1] 中所提到的,KL 散度项作为正则化项,用于平衡瓶颈嵌入中信息的简洁性与丰富性。我们通过实验发现,我们方法中的 KL 散度影响了方差 σ \sigma σ 的表示能力。如表 4 所示,在没有优化 KL 散度项( λ = 0 \lambda = 0 λ=0)的情况下,DUL cls _\text{cls} cls 的表现接近基准模型。在这种情况下,DUL cls _\text{cls} cls 为所有样本估计相对较小的 σ i \sigma_i σi,这使得采样的表示 μ i + ϵ σ i \mu_i + \epsilon \sigma_i μi+ϵσi几乎是确定性的。随着 KL 散度项优化强度的增强( λ \lambda λ 增大),DUL cls \text{cls} cls 更倾向于"分配"较大的方差给噪声样本,较小的方差给高质量样本(如图 7 所示)。然而,过度最小化 KL 散度项( λ = 1 \lambda = 1 λ=1)会导致模型对所有样本预测较大的方差,这使得方程 (3) 中的 L cls L{\text{cls}} Lcls 难以收敛,从而导致性能迅速下降(见表 4)。
表 4:使用不同权衡超参数 λ \lambda λ训练的 DUL cls _\text{cls} cls 结果。 σ \sigma σ 代表我们对 MS-Celeb-1M 中所有训练样本估计的方差取调和平均值。主干网络是 ResNet18,采用 AM-Softmax 损失。
DUL performs more robustly on noisy training data.
基于第 3.4 节对学习到的方差如何影响模型训练的分析,我们进一步在噪声 MS-Celeb-1M 数据集上进行实验以验证这一点。我们从 MS-Celeb-1M 中随机选择不同比例的样本,并对它们加入高斯模糊噪声。表 5 显示,我们提出的 DUL cls _\text{cls} cls/DUL rgs _\text{rgs} rgs 在噪声训练数据上表现得更加稳健。
5. Conclusion
在本研究中,我们提出了两种通用的学习方法,以进一步发展和完善数据不确定性学习(DUL)在面部识别中的应用:DUL cls _\text{cls} cls 和 DUL rgs _\text{rgs} rgs。这两种方法为每张人脸图像在潜在空间中提供高斯分布估计,并同时学习身份特征(均值)和估计均值的不确定性(方差)。综合实验表明,我们提出的方法在大多数基准测试中优于确定性模型。此外,我们通过定性分析和定量结果讨论了学习到的不确定性如何从图像噪声的角度影响模型训练。