ChatGPT颠覆面部生物识别？首次揭秘LLM的零样本人脸识别能力

引言：ChatGPT在面部生物特征识别中的新探索

ChatGPT在文本和多模态上的效果已经广为人知，但实际上LLM的应用潜力远不止于此。最近的研究开始探索ChatGPT在面部生物特征识别领域的应用。

面部生物特征识别包括多种任务：面部验证、软生物特征估计等。用户的姿态、年龄、光照、表情等因素都会影响模型的识别效果，导致该类任务尤其复杂。本研究的目的是评估基于最新的GPT-4多模态LLM的ChatGPT在这些任务上的表现，并与当前领域内的最先进方法(SOTA)进行比较。

本文是一篇纯实验型的文章，以实验探究为主，因此本文主要给出并解读文章的实验结果。

论文标题：How Good is ChatGPT at Face Biometrics? A First Look into Recognition, Soft Biometrics, and Explainability

机构：Biometrics and Data Pattern Analytics - BiDA Lab, Universidad Autonoma de Madrid

论文链接 ：arxiv.org/pdf/2401.13...

本研究的主要贡献包括：

探索最新LLMs在人脸识别任务中的应用，即确定一对面部图像是否为同一个人。
探讨了ChatGPT在执行其他面部生物特征任务（如软生物特征属性的估计）方面的能力，并进行了实验。

ChatGPT的面部验证能力分析

1. ChatGPT在面部验证任务中的表现

面部验证任务是指确定一对面部图像是否属于同一主体。本研究使用了公开数据集，并与领域内的最新方法（SOTA）进行比较。

实验结果表明，当面部图像以单一对比的形式呈现时，ChatGPT在面部验证任务中的平均准确率为80.19%，平均等错误率（EER）为21.19%。

然而，当图像以4x3矩阵的形式呈现时，其性能有所下降，平均准确率为66.23%，平均EER为34.96%。但这仍能说明ChatGPT在面部验证方面具有较好的性能。

2. ChatGPT在不同场景下面部验证任务中的鲁棒性

为了评估ChatGPT在面部验证任务中的鲁棒性，研究者使用多种公开的数据进行试验，并与SOTA进行了比较。数据集包括包括LFW、QUIS-CAMPI和TinyFaces等，分别代表了控制环境场景、监控场景和极端场景。

此外，实验还考虑了面部识别中的常见难点，如种族偏差、年龄和姿态变化以及面部遮挡问题。实验选择了ArcFace和AdaFace两种方法，并使用余弦距离来衡量特征嵌入之间的相似性。

软生物特征估计与解释性

1. ChatGPT在软生物特征估计中的应用

ChatGPT在软生物特征估计任务中的应用表现出了一定的准确性和多样性。那么首先，什么是软生物特征估计？

软生物特征估计是指对如性别、年龄、种族、发型和眼镜等特征的预测。

作者以zero-shot的方式 ，在多个公开数据集上进行试验，在MAAD-Face数据库上的实验显示，ChatGPT在部分面部属性分类上表现出色，例如在性别分类上的准确率达到96.30%，在某些种族分类上也有较高的准确率（例如白种人83.90%，黑种人97.50%）。

2. 提高自动决策的解释性和透明度

AI模型的可解释性是非常重要的，想要放心的在敏感场景使用AI，必须要保证人类能够理解AI的决策依据。ChatGPT在提供面部验证任务的解释性方面效果良好。

如上图所示：通过对ChatGPT的输出进行分析，可以看到它能够基于图像特征合理化其决策。

例如，ChatGPT在面部验证任务的输出得分与软生物特征属性（如面部毛发和肤色）相关。
ChatGPT还能够关注更细致的属性，如眼睛颜色、脸型或鼻型。
但ChatGPT也有一些缺点，ChatGPT在预测中考虑了面部表情，而这一个不应该被考虑的变量属性。上述结果证明了ChatGPT在面部属性分类方面的潜力，以及它在zero-shot中的实用性。

实验方法与数据集

1. ChatGPT配置和API参数

在本研究中，我们使用了基于GPT-4的ChatGPT，这是一个多模态大型语言模型（LLM）。为了实现面部生物特征识别任务，我们通过OpenAI提供的API与ChatGPT进行交互。实验中，我们使用的API参数包括：

Prompt：输入LLM的文本/问题，根据OpenAI的建议，我们编写了清晰的指令，并将复杂任务分解为更简单的子任务。
Roles：在与API交互时，必须选择一个角色。我们的实验中，提示是以系统角色发送的，而相应的图像则以用户角色发送。
Max Tokens：这个参数指示模型可以返回的最大token数。我们将此参数设置为1,000个token。
Image Detail：此参数提供三种设置：低、高和自动。我们将此参数设置为高，以便在输出中获得更多细节。

2. 实验框架和考虑的数据库

实验框架旨在评估ChatGPT在不同条件下的性能和鲁棒性，包括年龄、姿势、图像质量等。我们考虑了以下开源数据集：

Labeled Faces in the Wild (LFW)：一个包含高质量图像的流行数据集，没有严重的姿势变化。
QUIS-CAMPI ：包含在非受控室外环境中使用距离主体约50米的摄像头拍摄的视频和图像。
TinyFaces ：包含极低分辨率图像的数据库，平均分辨率为20x16像素。

此外，我们还评估了ChatGPT在面对面部识别中常见挑战（如人口统计偏差、年龄和姿势变化以及遮挡）时的性能，考虑了以下数据库：

BUPT-BalancedFace ：专为解决不同种族群体间性能变化而设计的数据库。
CFP-FP ：展示了姿势变化大和不同环境背景下的图像。
AgeDB ：展示了不同年龄段主体在不同环境背景下的多样化图像。
ROF ：包含被太阳镜或口罩遮挡的面部图像。

为了评估ChatGPT在软生物特征估计方面的性能，我们使用了基于VGGFace2数据库的MAAD-Face数据库 ，它为每张面部图像提供了47个软生物特征属性。我们还考虑了LFW数据库，因为其作者手动标记了性别、年龄和种族等软生物特征。

由于OpenAI API在每日请求次数和价格方面的限制，我们将面部验证任务的面部比较数量减少到每个数据集1,000个。数据为均匀随机抽取。

对于软生物特征估计，我们考虑了每个数据集的1,000张面部图像。

截至撰写本文时，ChatGPT的成本为每1,000个输入令牌0.01美元，每1,000个输出令牌0.03美元。图像的令牌数量基于图像细节参数计算。本研究中实验框架的总成本为124.31美元，耗时30天。

面部验证任务的实验结果

1. ChatGPT与ArcFace和AdaFace的比较

我们对ChatGPT进行了性能评估，并将其与ArcFace和AdaFace这两种先进的面部验证系统进行了比较。

ArcFace通过优化不同身份之间的角度边际来映射面部特征到高维超球面上。

AdaFace提出了一种新的损失函数，采用对比学习的方案，加强对于高难度样本的学习。

我们使用余弦距离来衡量特征嵌入之间的相似性，并用此指标来确定这些模型的等错误率（EER）。对于ChatGPT，我们直接使用ChatGPT输出中获得的置信度值作为自定义度量来获得EER。

2. 在不同场景下的表现分析

在不同的应用场景（如受控环境、监控和极端条件）以及图像质量方面，ChatGPT的性能表现出显著差异。

在LFW数据库中，ChatGPT接近于最先进模型的性能（93.50%准确率，8.60% EER）。
在QUIS-CAMPI监控场景中，ChatGPT的性能显著下降（79.20%准确率，24.00% EER）。
在TinyFaces数据库中，由于图像质量极端低下，ChatGPT的性能进一步下降（72.47%准确率，32.07% EER）。

这些结果表明，ChatGPT不适用于更具挑战性的场景。在面对人口统计偏差、姿势、年龄和遮挡等挑战时，ChatGPT的性能也有所下降。

我们还分析了ChatGPT在不同性别和种族的BUPT数据库中的性能，发现ChatGPT在不同人口统计组中的性能差异很大（例如，白人女性组的EER为14.94%，而印度女性组的EER为30.88%），显示出它存在较大的偏差。

此外，我们还分析了ChatGPT在提高面部验证任务结果可解释性方面的能力。在正确和错误的答案中，ChatGPT都展示了其基于图像特征合理化决策的能力。

例如，ChatGPT在面部验证任务中的输出得分与面部毛发和肤色等软生物特征属性相关。此外，它还能够关注更详细的属性，如眼睛颜色、脸型或鼻型，展示了处理粗略和细节特征的能力。

面部验证中的偏见问题

在面部生物特征识别的应用中，ChatGPT表现出了对不同人群的识别偏差。例如，在BUPT-BalancedFace数据库的评估中，ChatGPT在不同性别和种族的人群中的表现有显著差异，如白人女性组的平均等错误率（EER）为14.94%，而印度女性组的EER高达30.88%。这种表现差异揭示了ChatGPT在处理面部识别任务时可能继承了训练数据中的偏见。

结果解释性的定性分析

1. ChatGPT在正确和错误答案中的解释能力

在正确和错误答案中，ChatGPT都展现了其解释决策的能力。例如，在面部验证任务中，ChatGPT能够根据图像特征合理化其决策，如依据面部毛发和肤色等软生物特征。它还能够关注更细致的特征，如眼睛颜色、脸型或鼻型。然而，即使预测错误，ChatGPT提供的一些解释在描述图像中的人物时也是准确的。

2. 面部表情和时间差异在预测中的考虑

ChatGPT在预测中考虑了面部表情，尽管这是一个应该被忽略的变量特征。此外，模型还识别了图像之间的时间差异，并将这些信息纳入其预测中。这表明ChatGPT在处理面部生物特征识别任务时，不仅能够处理粗略特征，还能够处理细节特征。然而，对于面部表情和时间差异的考虑可能会影响面部验证的准确性，因为这些因素不应影响人物身份的判断。

软生物特征估计的实验结果

1. ChatGPT在LFW和MAAD-Face数据库中的表现

在LFW（Labeled Faces in the Wild）数据库中，ChatGPT展示了在控制环境下的潜力，达到了93.50%的准确率和8.60%的等错误率（EER）。这表明在图像质量良好且姿势一致的情况下，ChatGPT能够接近专门训练的面部识别模型的性能。然而，在MAAD-Face数据库中，ChatGPT的平均准确率为76.98%，这表明尽管ChatGPT在某些面部属性分类上表现出色，如性别分类（96.30%准确率），但在整体上仍然落后于专门为此任务训练的模型。

2. 特定面部属性分类的潜力

ChatGPT在面部属性分类方面显示出了一定的潜力。例如，在MAAD-Face数据库中，ChatGPT在性别分类上的准确率高达96.30%，在某些种族分类上也表现出色，如白种人（83.90%准确率）和黑种人（97.50%）。此外，ChatGPT在识别佩戴帽子等配饰方面也表现良好。这些结果表明，尽管ChatGPT在某些软生物特征上的表现不如专门训练的模型，但它在未经训练的任务上仍具有一定的实用性。

总结与未来工作展望

ChatGPT在面部生物特征任务中展现了一定的潜力。例如，在LFW数据库中，ChatGPT的准确率接近94%，在MAAD-Face数据库中的性别分类准确率接近96%。然而，ChatGPT在面部识别的整体性能上仍然落后于专门为此任务训练的模型，如ArcFace和AdaFace。此外，ChatGPT在处理质量较差的图像、姿势变化大的图像以及不同领域间的比较时性能下降明显，这限制了它在更具挑战性的应用场景中的应用。