近年来,深度神经网络在人脸识别中表现出了卓越的性能。与基于人为特征设计的方法相比,深度神经网络可以从原始图片中逐层提取人脸信息,从而获得与人脸相关的抽象特征。这种层次性特征学习避免了人为特征设计的缺陷,特别是在训练数据足够丰富时表现更为出色。

基于深度卷积网络的人脸识别系统。图片来源:Sun et al., 2022.
图 是一个用于人脸识别的深度卷积网络。输入的是原始的人像图片。首先对人脸进行定位,再通过一个三维模型将侧脸转换成正脸。将转换后的人脸图片输入一个包含 6 个卷积层的神经网络,最后经过两个全连接层后到达输出层。输出层的每个节点对应一个特定的人。学习的准则如下:输出层对应目标人的节点输出接近 1,而其他节点的输出接近 0
训练完成后,网络会在底层检测简单的线条和边缘,在中间层识别出五官等人脸部件,而在高层则能够提取出整张人脸的抽象特征。
人脸识别网络各层卷积核学到的特征。图片来源:Wang et al., 2019.
这种逐步递进的学习方式,使得深度神经网络在最后一个隐藏层得到一个可以全面表达人脸独特性的向量,这一向量被视为人脸在低维空间中的"嵌入"(Embedding)。通过计算这些特征向量之间的距离(一般为余弦距离),就可以判断两张人脸图片之间的相似度,进而决定两张人脸图片是否属于同一个人。自 2014 年深度神经网络首次应用于人脸识别以后,人脸识别的精度快速提高。在 LFW(Labelled Faces in the Wild)数据集上,深度学习模型很快取得了超过99% 的识别准确率,达到了实用化水平。

神经网络将人脸图片嵌入到一个低维人脸空间,两张人脸图片这一空间中的距离代表了它们的相似度。