面部动作在情绪识别中的作用(nature reviews psychology2023)

文章目录

摘要
静态情绪识别
动态情感识别
- 时空信息
- 独特的时间信息
动态表情识别的机制
多模态表情识别
启发

摘要

过去大多数关于情绪识别的研究都使用了摆拍的表情照片 ，旨在描绘情绪表现的峰值。虽然这些研究为人们如何在面部感知情绪提供了重要的见解，但它们必然会遗漏动态信息 的任何作用。在这篇综述中，我们综合了视觉科学、情感科学和神经科学的证据，探讨了动态信息在静态图像中传达的信息之外，何时、如何以及为什么有助于情感识别。动态显示提供了独特的时间信息，如运动的方向，质量和速度，补充了更高层次的认知过程和支持社会和情感推理，增强面部情感的判断。动态信息对情绪识别的积极影响在观察者受损和/或面部表情退化或微妙的次优条件下最为明显。动态显示进一步招募感知者的早期注意力和动机资源，促进对他人情绪状态的及时检测和预测，有利于社会互动。最后，由于情绪可以以多种形式进行表达，我们研究了动态和静态信号在不同的通道上的多模态整合，并为未来的研究提出建议。

静态情绪识别

通过描绘情绪表现的峰值，静态图像捕捉面部行为的差异，这些差异是由固有的动态肌肉驱动的形态变化造成的。先前的研究表明，观察者可以以70-90%的准确率识别一组有限的"基本情绪"，包括快乐，愤怒，悲伤，厌恶，恐惧和惊讶，这些情绪都是通过面部运动的不同模式表达的。此外，所谓的基本情绪可以分为子类别，在所有情绪中，快乐是最容易在脸上识别的，而恐惧和厌恶是最难识别的，经常被误认为是惊讶和愤怒。一般来说，识别准确率随着研究中包含的表达的数量和类型而变化，并且当响应格式是自由的（而不是强迫选择）和表达是自发的（而不是提出的）时识别准确率较低。
面部的局部区域可以像识别基本情绪的整个面部一样提供信息，特定区域受益于不同的表情。例如，眼睛和脸的上半部分在识别恐惧、愤怒和悲伤方面信息量更大，而嘴巴和脸的下半部分在识别快乐、中立和厌恶方面信息量更大。与身份识别相比，面部颠倒呈现时的准确性下降对于表情识别相对较小。由于反转被认为会破坏特征之间关系的处理，因此这一发现表明，局部特征-可以根据局部面部肌肉动作或动作单元2来概念化-足以用于情绪抑制。然而，由于相同的动作单元可以出现在多个表情中，情感识别必然也依赖于非局部信息。例如，恐惧和惊讶共享扬起的眉毛（动作单元1和2），但增加皱眉（动作单元4）表示恐惧，而下巴下垂（动作单元26）表示惊讶。反映这些非局部依赖性，有证据表明面部表情是整体处理的（即作为统一的整体或"完形"）。特别是，识别面部的一半（例如，上半部分）所描绘的表情对于复合面部（其中上半部分和下半部分显示不同的情绪）是受损的，这表明情感识别的感知机制依赖于面部特征之间的空间相互依赖性。

用线条画的脸的研究表明，低层次的图像属性，如轮廓曲率可以标志不同的面部表情。这种二维形状信息是在面部标志的二维位置（例如，嘴角和眼角）中捕获的，并且当其他基于表面的信息（由照片中的灰度差异传达）保持恒定时，支持表情识别。二维形状的夸张差异增强了表情的独特性和情感强度，促进了更快的理解。在静态图像上训练的各种统计分析和神经网络模型能够近似人类情感识别性能，包括相对难度和特征混淆。因此，人类情感识别的某些方面可以从与表情变化相关的低层次视觉特性中产生，并且独立于情感意义。

总之，静态图像的研究深刻地塑造了面部情绪识别的科学理解，至少对于有限数量的基本情绪。虽然面部的局部区域可以像识别特定表情的整个面部一样提供信息，但证据也指向表情识别的整体过程。此外，表情变化的不同模式和二维形状信息可以用于检测、识别和分类情绪。

动态情感识别

在考虑面部运动对情绪识别的潜在好处时，重要的是要问动态信息是否在静态信息之上提供额外的效用，如果是这样，处理什么额外的信息。在这里，我们综合研究结果，从动态刺激中的信息中可以了解到静态图像中无法获得的关于情绪感知的信息。

时空信息

当看到一个移动的脸，空间信息是关于所观察的表情的基础结构;此外，动态信息是关于脸移动的方式。运动可以促进对面部三维结构的感知。然而，对这种"从运动到结构"过程的数学分析通常假设头部运动是刚性，这与情感表达中涉及的弹性面部运动不一致。尽管如此，研究表明，运动的结构信息也可以从非刚性运动中得到。

动态信息包括时间和运动学线索（如随时间的位移，速度和加速度）（图1a）。关于运动信息的有效性有如下讨论：

通过限制面部的哪些部分是可见的或者选择性地冻结面部的区域而其他部分正常移动的技术可以用来确定面部的那些部分对表情的识别来说是有用的，使用这些技术的研究表明嘴部显示出最具辨别力的运动，因此特别有助于识别不同的情绪。
眼动追踪数据（当观看动态面部时）发现对面部不同区域的注意力取决于表情
- 愤怒和悲伤：更早更长时间地注视眼睛
- 快乐：嘴部区域
- 厌恶：鼻子和脸颊区域
- 恐惧和惊讶：眼睛和嘴巴。

动态表情可能使脸的组成部分在时间上整合成一个整体。但是由于动态表情缺乏对面部组成元素（可分离的局部元素，如眼睛，嘴或鼻子）的明确定义，与静态表情相比，动态表情不太可能增强整体处理。相反，面部运动可能会增强基于特征的处理 （至少对于某些表情）。

独特的时间信息

动态表达包括随时间变化的多个图像（图1b），从而提供单个静态显示中不包括的附加信息（即使在相同的持续时间内呈现）。更密集的信息采样是有益的，更高的帧速率的表达（从中性到峰值）促进意义提取和解释。

然而，动态优势不仅仅是由于动态序列中包含的额外的基于静态的信息，时间信息对动态表情也是至关重要的，下面使用了几种技术对时序信息进行了改变。

噪声掩模
- 在静态图像之间添加视觉噪声掩码（形成多静态序列），以中断明显的运动，同时保持静态内容的量
- 与动态序列相比，多静态序列的准确性较低，这表明感知运动的重要性
随机帧顺序
- 改变动态序列中帧的顺序，扭曲观察到的运动的自然时间序列
- 当自然运动序列被打乱时，识别性能会下降;在某些情况下，与随机顺序序列相比，对单个静态图像的识别效果更好
不可预测或规律紊乱
- 通过减少帧的数量或改变所显示的帧的相对时间来改变所观察到的动态序列的规律
- 运动流被中断，运动通常看起来更"颠簸";识别性能受到不利影响
时间轴反转
- 通过以向后的顺序播放序列中帧的时间顺序来反转它们
- 向后运动导致非典型的面部运动轨迹，降低准确的情感识别
线性变形
- 在两个图像之间逐渐变形（通常是中性和表情顶点），创造出一种动态的情感，平滑而线性地移动
- 变形消除了运动的自然特征（非线性的），并对表情感知产生了负面影响
变化速度
- 通过增加或减少帧速率或观察到的运动的时间来改变面部表情的速度
- 速度的影响因情绪的内在速度而异。例如，悲伤是最慢的情绪，它的识别通过减缓表情呈现来增强;加快面部表情有助于愤怒和快乐的判断

动态表情识别的机制

动态信息为什么重要

虽然面部运动的影响主要是知觉的（刺激驱动的），从时间上得出的结论与更高层次的认知过程有关
面部动态传达情感和精神状态以及社会特征，如吸引力，可信度或支配力
神经科学证据表明，动态表情（与静态表情相比）所带来的识别益处可能是由参与面部识别的大脑区域更强、更广泛的激活所支撑的。

如上图所示，早期的视觉皮层和枕叶区域有助于早期的检测和感知，它们为腹侧通路提供输入，主要是梭状面区（与基本不变的面部特征有关）和背侧通路，主要是后上级颞沟和额下回（与可变特征有关）。与静态面部表情相比，黄色阴影区域中的区域的活动在对观看动态面部表情的响应中增强。与静态表情（虚线）相比，动态表情也会在涉及感觉运动和社会情绪处理的非面部特异性区域引起更强和更广泛的激活。
与静态面部相比，动态面部表情诱导更长和更分散的神经活动：面部运动比静态的脸唤起更早的激活，提出反映"动机注意"，促进视觉编码的初始阶段。与静态表情相比，早期视觉处理区域中的这种活动维持的时间更长，这可能反映了对处理移动面部中变化特征的复杂性的注意力需求增加。动态表情的感知还具有快速和双向连接模式的特征，这些模式支持核心区域（处理面部特征和身份的区域）和分布式网络区域（处理面部情感内容和含义的区域）之间的信息交换。这种连通性可能是由同步神经振荡调制的，该同步神经振荡被认为在整合感知的大脑区域之间的信息传递和绑定中起关键作用。这个网络中的同步和快速连接可能会支持动态表情识别的效率。

动态信息使得人们形成了面部运动的心理表征，这影响了情感的识别和感知质量（例如，真实性）以及随后的特质推断。这种处理复杂性在神经水平上是显而易见的，动态（相对于静态）表达在复杂的网络中引起更强，更广泛和更长的激活，包括涉及高阶社会认知过程的区域。

什么时候动态信息起作用

动态信息灵活地支持表情识别，优化面部感知，特别是在静态信息是次优或不协调的任务中
当观察者由于年龄或临床、发育或神经障碍而无法解读情感相关信息时，面部运动也有助于情感识别
当面部表情不退化、高度紧张或有强烈指示情绪时，面部动态可能不会提高情绪识别和特质评级
情感识别的准确率在静态图像中已经很高时（例如面部表情的刻板描绘），运动的好处也微乎其微或根本不存在

总而言之，特别是当识别由于面部中缺乏静态线索而难以进行时，或者当观看条件次优时，面部移动有助于情感识别。同样，当观察者在从静止的面孔和不确定的条件下识别情绪时受到损害时，表情随时间变化的方式所提供的信息可能会有所帮助。

为什么动态信息很重要

如上所述，人们对面部运动的时间轨迹高度敏感。这种对运动方向的敏感性可能反映了对情绪轨迹的预期，从而以预测的方式使感知产生偏差
面部运动也使信息在社交互动中更加突出：动态显示比静态显示唤起更强烈的表情感知，可能是由于响应自然运动的唤醒归因或注意力分配增加
运动可以产生代表性的动量，动态表情的呈现速度加强了表情的感知终点：这种感知增强可能有助于识别面部情绪的突然变化
动态表情的情境特定面部模仿具有社会功能并调节社会互动：模仿快乐和悲伤的表情可能会促进亲密关系和情感交流（如同理心和融洽关系），而愤怒通常是模仿较少，由于其非亲密性质。动态模仿反应也可能促进人际协调和情绪传染。事实上，高度共情的个体表现出更多的面部模仿，并在镜像神经元系统的运动相关和情绪相关区域表现出更强的活动，以响应动态与静态的表达。因此，动态显示增加了发送者和感知者之间分享情感的倾向，允许人类理解、同情和推断他人的经历。

总之，面部表情的移动方面比静态方面获得注意力和感知优先级，从而促进检测、识别和评估。动态表情的这种优势可能通过社交线索（例如理解他人的意图和情绪状态）增强了面部运动的沟通价值，也可能支持人际协调和同理心。

多模态表情识别

面部活动经常伴随着发声，身体，手，头和眼睛的运动，触摸，甚至气味。持续监测和检测表达变化的需要需要对多个通道汇集的快速变化和部分模糊的非语言和语言信号进行持续解码。因此，情感识别本质上是多模态的，与身份识别不同，它的缺陷也是如此：情感识别缺陷的患者无法从面部，声音或身体中识别情感。面部表情的动态特性，包括时间、持续时间和强度，在不同的通道中共享，通过增加情绪相关属性的显著性来增强识别。其他通道，如音高和身体姿势，独立于面部传达情感，并为情感表达提供潜在的补充信息。因此，当各个通道的内容不明确和/或性能不处于最高水平时，多模式表达可能会增强情感识别。在这些情况下，多感觉整合可能与个体刺激的有效性成反比。

总之，面孔很少单独出现。声音、身体和其他通道也传达情感，并提供一个多感官环境，可以改变，也可以被改变，面部表情是如何感知的。情感识别的需求受益于跨这些渠道的互补和一致的信息的多模态汇集。声音通过共享的肌肉组织直接动态地与面部联系在一起，这反映在情感和语音识别中。注视和头部方向以及身体姿势分别通过指示注意和意图进一步有助于情绪识别。组合渠道扩展了可识别的情感范围，因为不同的渠道更善于传达复杂，动态和多模式表达模式的不同方面。

启发

本文综合了视觉科学、情感科学和神经科学的证据，探讨了动态信息在静态图像中传达的信息之外，何时、如何以及为什么有助于情感识别。这对于利用计算机视觉进行人脸识别有一定启发，我们可以将其中的一些先验知识和结论做成模块加入动态人脸表情识别的算法中，例如动态表情的感知具有的快速和双向连接模式的特征可以启发我们进行网络模块的