9-20 脸孔识别（AGI基础理论）

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版：《AGI（具身智能）路线对比》，欢迎各位参与讨论、批评或建议。

第20节脸孔识别

面孔是一种比较特殊的刺激，能为人们提供性别、年龄、情绪状态等丰富的信息。在人际交往中，对交往对象的识别很大程度上依靠面孔提供的各种信息。

一．特征与构型

1.特征说、结构说和整体说

研究者在解释面孔识别的认知过程中，通常强调了结构信息和特征信息的不同作用，形成了诸多理论，其中最具代表性的有特征说、结构说和整体说。

研究者通常把眼睛、眉毛、鼻子、下巴、脸颊等单个部件所包含的不同属性（如具体形状和大小）称为人脸的特征信息。特征说认为，整体人脸的识别只是各个局部特征识别的总和（分别识别不同部件，进而识别人脸）（Garner，1978）。

结构说则认为，人们是通过特征信息和构型信息（如脸型轮廓，五官位置等）来知觉和记忆人脸的，而且构型信息在此过程中起着更为关键的作用（Rhodes，Brake和Atkinson，1993）。Diamond等人（Diamond和Carey，1986；Rhodes，1988；Donnelly和Davidoft，1999）将面部构型信息区分为一阶构型信息和二阶构型信息，一阶构型信息指构成人脸各部件应有的共同结构，如头发在眉毛上方，眼睛在眉毛之下和鼻子上方；二阶构型信息则涉及到人脸各部件之间更为精细的空间关系，如各人脸部件之间的距离关系（如两眼之间的距离）、各部件的相对尺寸比例（鼻子的长度和眉毛的长度比）以及各部件相对于整个人脸的尺寸比例（眼睛占整个人脸的比例）等作为结构信息。此外，Rhodes（1988）还提出了一种高级特征，指年龄、性别、体重等复杂的信息组合。

整体说认为，人脸是整体表征的，而不是各部分表征的组合。人们在人脸认知过程中，依赖于结构信息和特征信息两种信息来源，但对这两种信息的加工并非独立进行，而是结合成一个单一的整体起作用。有研究发现，在提取记忆表象的过程中，整体人脸比单个部件更容易被激活（Farah，1992；Farah，Tanaka和Drain，1995）。

2.研究范式

（1）倒置面孔

Yin（1969）最早发现倒置面孔可以操纵面孔构形信息与特征信息的区分，如图1。该研究发现，与识别正立面孔相比，识别倒置面孔变得十分困难，表现出明显的倒置效应，但是对识别倒置物体（房子或飞机）却没有发现明显的倒置效应。据此研究者提出面孔识别中存在两种不同的加工方式，一种是基于特征信息的加工，这与识别物体的加工方式相同；另一种就是面孔识别特有的基于面孔整体的构形信息的加工。人脸之所以会产生倒置面孔效应，是由于倒置面孔构形信息的缺失所致（Freire，Lee和Symons，2000）。

图1

Thompson（1980）在此基础上进行了进一步的研究，该实验分别将面孔的眼睛和嘴巴在垂直方向上翻转，结果发现经处理的正立面孔看起来十分怪异，如图（b）；但倒置的面孔看起来却没有那么怪异，甚至有时候还不容易被发现，如图（c）和图（d），这就是撒彻尔效应。这一名字来源于英国首相玛格丽特·撒切尔，她的脸据称最具有这样的特征。这表明，正立面孔的识别是基于构形加工，而倒置面孔的识别基于特征加工，即倒置破坏了面孔的构形信息。这进一步为构形加工与特征加工的分离提供了证据。

图2（a）图2（b）

图2（c）图2（d）

（2）高频面孔、低频面孔与全频面孔

不同空间频率对应不同的信息。具体到面孔图片，低频面孔只包含构形信息，而高频面孔只包含特征信息，全频面孔即未处理的原始图片，同时包含构形信息和特征信息，如图3。Sergent（1986）发现模糊照片使特征信息消失，而只保留构形信息（低频面孔）。但提取面孔的高频信息存在一定困难，Goffaux等人（Goffaux，Hault，Michel和Vuong等人，2005）发现，在高频面孔中可以清楚地看到五官的空间位置关系，因此构形加工仍会发生，但会以特征加工为主。

图3

有研究证明，操纵空间频率会对面孔识别产生很大的影响。Harel和Bentin（2009）发现，在面孔分类任务中，仅保留低频信息的条件下成绩不会受到显著影响，但是过滤掉低频信息后反应时和准确性均明显降低，这表明面孔加工中构形信息可能起到不可或缺的作用。有研究采用匹配目标任务发现，当探测刺激和目标面孔的特征信息不同时，高频面孔的成绩显著高于低频面孔的；而当两种面孔的构形信息不同时，低频面孔的成绩显著高于高频面孔的。

（3）组合面孔

组合面孔任务（Young，Hellawell和Hay ，1987）将面孔图片从鼻尖处水平分割为上下两部分，并将某一面孔的上半部分面孔和另一面孔的下半部分面孔以对齐和错开两种方式拼接起来，如图4（左图为女性，右图为男性）。然后需要被试对上半部分的面孔进行识别。结果发现对齐时被试对上半部分面孔的识别成绩较差，而错开时的成绩则较好。对此效应的解释为，在对齐条件下，上、下两半部分融合成一个新的面孔，尽管只要求被试识别上半张面孔，但是不可避免地会受到融合的新面孔的影响。此时被试主要利用面孔的构型进行识别；在错开条件下，不能将两半面孔知觉为一个整体，面孔的整体加工受到破坏，受下半部分面孔的影响也就减弱了。此时被试主要利用面孔的特征进行识别。

图4

3.构形加工与特征加工的先后关系

前面的讨论表明，构形加工体现了面孔识别的特殊性，但这并不否认特征加工的作用。构形加工与特征加工是面孔识别的两种基本加工方式。那么，在面孔识别中这两类加工方式之间的关系如何，是同时进行的还是按先后顺序完成的？

（1）构形先于特征加工

Tanaka和Sengco（1997）研究了构形信息改变对特征信息的影响，发现识别同一面孔部分（如眼睛）在原面孔情境中要比在新的面孔情境中更好，表明构形加工是特征加工的基础。Sripati和Olson（2009）在猴子身上进行实验，发现颞下皮质区的神经元表征整体信息先于局部信息30 ms，支持整体先于局部加工，或是从粗略到精细的加工顺序。

（2）构形后于特征加工

尽管有研究支持面孔识别中整体加工先于部分加工的观点，但还是有不少研究提供了相反实验证据，主张部分先得到加工。Carbon等人（Carbon，Schweinberger，Kaufmann和Leder，2005）采用倒置的撒彻尔效应考察整体信息与特征信息之间的可分离性。实验采用两种呈现时间，一种是呈现时间为26 ms，另一种呈现时间为200 ms。让被试判断所呈现的倒置面孔是否正常面孔，还是有改动的。结果发现，在长时间呈现下被试对撒彻尔倒置面孔的判断反应时要比正常倒置面孔的判断反应时显著地短；但在短时呈现下撒彻尔倒置面孔的判断反应时却显著地长于正常倒置面孔的。由此得出结论：面孔识别中特征信息是先于整体信息被加工的。

一般来说，两种加工方式在面孔加工中都发挥作用。在特定实验任务中，构形加工和特征加工并存，且往往存在竞争关系，具体哪种加工处于优势地位主要取决于哪种信息在特定的任务中更容易被提取。

二．面孔识别的理论模型

目前，公认的具有广泛影响力的面孔识别模型主要有两类：Bruce-Young模型和交互激活与竞争模型。

1.Bruce-Young模型

根据Bruce-Young 模型（如图5）（Bruce和Young，1986），模型的第一阶段为面孔结构编码阶段。在此阶段，对面孔的结构特征进行编码。此阶段之后是两条独立的通道：第一条通道是有关视觉处理的，包含表情分析、面孔语言分析和直接视觉处理3个平行的处理单元；第二条通道是有关面孔识别的，包含面孔识别单元、个体特征单元和名字产生单元3个串行的处理过程。

图5

（1）结构编码阶段

在Bruce-Youmng模型中，结构编码阶段包含两种编码方式：一种是静态的图形编码，即面孔的亮度、质地、斑点以及姿势和表情等；另一种是动态的结构编码，即更抽象的视觉表征，如头的角度、表情、年龄和发型等的改变等。此阶段的主要作用是对面孔的结构进行编码，以便进行后续分析。

（2）视觉处理通道

（a）直接视觉处理（性别、年龄和种族）

根据Bruce-Young模型，在对面孔特征进行编码后，沿着第一条通道就进入了直接视觉处理单元。该单元的主要作用是对面孔的年龄、性别和种族等特征进行处理和编码。

（b）面孔语言分析

该单元的主要作用是对面孔的表情、面部语言（如唇语、视向等）进行处理和编码。

（c）表情分析

在进化过程中，对表情（特别是在危险情况下）快速、准确地处理有着重要的意义。行为实验已证明，对表情的处理能够在无意识状态下进行，辨别和加工完全是自动的。

（3）面孔识别通道

第二条通道是有关面孔识别的。更确切地说，是有关熟悉面孔识别的。识别的过程是这样的：首先是对面孔的知觉（这是一张面孔），然后是识别（这是某人的面孔）。在对面孔进行结构编码后，与面孔识别单元中存储的面孔记忆表征进行比较，然后进入个体身份节点将特征信息进行对比和匹配（如是否经常遇见、是否友好、职业等语义信息），当以上信息都匹配成功时，就可从姓名产生模块获得该面孔的语义信息（如果有的话），最后由认知系统整合第一通道和第二通道的信息，于是就将面孔识别出来了。

（4）修正模型

越来越多的研究采用事件相关电和功能性磁共振成像技术证明，面孔身份与面部表情识别是由大脑的多个区域共同完成。之后，Bruce和Young进一步修正了模型，提出不同通道的信息之间可能会产生交互作用（Bruce和Young，2012）。如面孔表情信息也会对面孔身份识别的过程产生影响（Li和Tse，2016；Lipp，Craig，Frost和Terry等人，2014）。Haxby等人（Haxby，Hoffman和Gobbini，2000）提出面孔信息可以分为可变信息（如表情、视向、唇部运动等）和不变信息（如性别、年龄、种族等）。这两类信息的加工分别依赖于相对独立的脑机制。例如，颞上沟主要负责感知可变信息，而外侧梭状回则主要负责加工不变信息。但值得注意的是，这些脑区在功能上并不是完全分离的，即与经典功能模型相比，该理论强调面孔加工过程中各部分脑区的协同工作。

在此基础上，汪亚珉和傅小兰（2005）提出了多级整合模型，如图6。该模型认为，面孔身份与表情的加工主要可分为三个阶段：（a）早期知觉加工阶段，这一阶段的主要任务是对面孔进行整体性表征，进而为后续加工提供更为精细的信息；（b）表征阶段，大脑的加工系统经过选择性注意启动不同的神经模式（面孔身份/表情识别模式），从而唤起相应的加工任务；（c）分析加工阶段，通过对前两个过程的信息进行加工，建立起整合机制。

图6

2.交互激活竞争模型

Burton 等人（Burton，Bmce和Johnsto，1990）首次提出面孔识别的交互激活竞争模型。该模型由一些集合组成（比如面孔识别集合、个体特征集合等），这些集合又包括很多单元（如面孔识别集合包括单元小明、小红等）。每个集合的内部单元之间被抑制性的联结两两相连。各个集合间的相关联的单元又被兴奋性的联结相连。所有集合间的连接是双向的，但这两个方向的强度却不一定相等。当有刺激输入时，模型中的单元就会被激活，这些激活会沿着集合间的兴奋性连接传导下去，经过一定周期的衰减，各个单元的激活水平会倾向于稳定。

三．本族效应（周国梅，张璐然和曾伟贤，2009）

我们看国外的电视节目时，会觉得电视里面的黑人看起来都一样，很难区分，而我们却能很容易地区分中国人的不同面孔。个体对本族面孔总是比不熟悉的异族面孔有更好的再认的现象被称为本族效应。对该现象背后的内在机制，研究者们提出了各种解释假说。

1.接触假说

接触假说认为，人们对本族面孔的识别和再认成绩较对异族的好，是因为他们与本族的人接触较多。例如，Kelly等人（Kelly，Quinn，Slater和Lee等人，2005）把高加索新生儿和3个月的婴儿随机分配到四个种族面孔（高加索、中东、非洲、亚洲），形成8种实验条件。婴儿被试每次看两张面孔，结果发现新生儿对各族面孔的注视时间没有差异，也即没有表现出对本族面孔的偏好，然而3个月的婴儿却对本族面孔的注视时间更长。

2.多维空间理论

Valentine（1991）提出面孔是在一个多维度的心理空间中进行表征的。本族面孔在这个空间中的集中程度较小，而异族面孔的集中程度较大。当我们看到一个需要再认的面孔时，我们会把这个面孔的表征与储存在心理空间里先前学习过的面孔表征进行比较从而做出判断。因为异族面孔的集中程度较大，所以从心理空间中提取到正确的个体异族面孔会更困难。

3.整体/部分假说

Yin（1969）认为这种面孔倒立效应是因为人们对面孔的加工是一种整体加工，当面孔倒立时，面孔的整体性被破坏，因此对倒立面孔的识别成绩差。Rhodes，Brake，Taylor和Tan（1989）要求亚洲被试与高加索被试再认一些正立的和倒立的亚洲面孔和高加索面孔，结果发现，被试在再认本族面孔时表现出更大的倒立效应。因此，他们推测人们对本族面孔的加工更多依赖于整体信息。而且，通过1个小时的训练让被试对异族面孔更熟悉，被试对异族面孔也表现出更大的倒立效应，也即对异族面孔也采用整体加工的方式（McKone，Brewer，MacPherson和Rhodes等人，2007）。

4.认知忽视和注意

该理论认为，本族效应可能是因为我们在知觉异族面孔时，只注意其种族类别，从而忽视了对异族面孔个体特征的加工（Levin，2000；MacLin和Malpass，2003）。有关面孔知觉的研究发现，人们对异族面孔的种族类别要比对本族面孔的种族类别判断得更快（Levin，1996；Valentine和Endo，1992）。Hill和Lewis（2006）让实验组被试学习注意面孔的微小变化（例如，鼻子不同，嘴巴不同等）（包括外族）。结果发现，相比较于控制组，实验组被试对面孔再认的本族效应大大降低。

5.加工水平说

Chance和Goldstein（1981）认为人们对本族面孔的加工深度要比异族面孔的深。他们让被试去描述他们在看到本族和异族面孔时的反应。然后将被试的陈述按加工深度进行编码，发现本族面孔要比异族面孔加工得更深。

6.分类理论

分类理论认为外族面孔与本民族面孔相比，有着更显著的分类标识，使人们倾向于将其归于一组，因此形成了组内（本族面孔）与组外（异族面孔）两种不同类型的面孔。很多研究都表明组外的成员比组内的成员更加具有相似性。因此，组外较组内更容易混淆（Meissner和Brigham，2001）。实验发现白人被试在白人和黑人混合面孔中搜索黑人面孔的时间要远远短于搜索白人面孔的时间，说明黑人面孔比白人面孔对于白人被试而言有着更显著的分类标志（孙境晨，张旭和贾德梅，2012）。迈阿密大学的Hugenberg等人（Hugenberg，Miller和Claypool，2007）通过实验引导被试相信所呈现的面孔来自迈阿密大学和马歇尔大学的学生（实际上，这些面孔是被随机标上两个学校的标签），结果发现被试对那些标签为迈阿密的面孔能够较好的识别。他们的实验表明了跨种族效应产生的原因并不仅仅是不熟悉的其他种族。他们认为跨种族效应是由于我们根据社会类别（如等级、爱好、种族等）将人们分为内外群体的倾向所导致的。这种认知缺陷（包括本族效应）在没有种族特征和外在的不同生理特征时也可以发生。

7.认知编码理论

认知编码理论认为个体对异族面孔的加工只是针对某一特征所进行的表层加工，在面孔识别时会首先对面孔进行种族分类，注意资源主要分配在面孔的种族特征上，而容易忽视这些面孔所携带的个人化的具体特征（如性别、年龄、情绪状态等）等。与此相对，知觉本族面孔时的加工则是采用专家编码方式的深层加工，通常倾向于关注不同面孔的个人化特点而较少去注意种族特征。由于很多面孔认知任务都要依靠个性化的信息，从而出本族效应。（Rhodes，Brake，Taylor和Tan，1989；Tanaka和Sengco，1997）