论文阅读 - Context De-confounded Emotion Recognition

Introduction

背景：

情绪识别作为理解人类意图的一项重要技术，在人机交互[1]、医疗监测[28]和教育[40]等各个领域引起了广泛关注。之前的工作主要集中在从人类受试者中提取多模态情感线索，包括面部表情[9,10,49]，声音行为[2,50,52]和身体姿势[25, 53]，受益于深度学习算法的进步[6,7,21,26,27,43,44,46,47,54,55,59]。尽管以主题为中心的方法取得了令人印象深刻的改进，但它们的性能受到自然和环境的限制。

数据集偏差案例：

图 1（左）中的几个示例显示了视觉层面的典型情况。野生收集的图像中的主题的多模态表示通常是难以区分的（例如，模糊的面孔或手势），而不是精心设计的视觉内容，这迫使利用主题周围可能反映情感的补充因素。

（CAER 任务中上下文偏差的说明。 GT 意味着基本事实。大多数图像在训练数据中包含具有积极情绪类别的相似上下文。在这种情况下，模型会学习特定上下文和情绪类别之间的虚假相关性，并给出错误的结果。感谢 CCIM，简单的基线 [19] 实现了更准确的预测。）

近期研究套路与上下文偏差的分析：

受心理学研究[3]的启发，最近的作品[19,22,23,29,56]表明情境信息有助于情境感知情绪识别（CAER）的有效情绪线索。上下文被认为包括地点类别、地点属性、对象或围绕主题的其他人的行为[20]。大多数此类研究通常遵循一个共同的流程：（1）获得已识别主题的单模态/多模态表示；(2) 构建多样化的上下文并提取情感相关的表征；使用策略将这些特征结合起来进行情感标签预测。尽管现有方法通过复杂的模块堆叠 [12,23,51] 和技巧 [16, 29] 得到了适度的改进，但它们总是受到数据集的上下文偏差的影响，而这一点长期以来一直被忽视。回顾生成 CAER 数据集的过程，不同的注释者被要求根据他们主观认为具有不同背景的图像中的人们的感受来标记每个图像 [20]。该协议使得注释者的偏好不可避免地影响情感类别在上下文中的分布，从而导致上下文偏差。图 1 说明了这种偏差如何混淆预测。有趣的是，训练数据中的大多数图像都包含具有积极情绪类别的植被场景，而类似上下文中的消极情绪几乎不存在。因此，基线[19]可能会被误导来学习上下文特定特征和标签语义之间的虚假依赖关系。当给定具有相似背景但负面情绪类别的测试图像时，模型不可避免地会推断出错误的情绪状态。

玩具实验来验证数据集中的强烈偏差：

更有趣的是，进行了一个玩具实验来验证 CAER 数据集中的强烈偏差。该测试旨在观察情绪与情境（例如场景类别）的关联程度。具体来说，采用在 Places365 [58] 上预训练的 ResNet-152 [15] 来预测两个数据集中具有三种常见情感类别（即"愤怒"、"快乐"和"恐惧"）的图像的场景类别。从每个情感类别中选择前 200 个最常见的场景，并计算特定情感的正面和负面集合中每个场景类别的归一化条件熵[30]。在分析图 2 中的场景上下文和情感类别（例如"愤怒"和"快乐"）之间的相关性时，我们发现更多条件熵为零的场景类别最有可能表明存在显着的上下文偏差。它仅在积极或消极的情绪中显示这些场景的存在。具体来说，对于 EMOTIC 数据集 [20]，大约 40% 的愤怒场景类别的条件熵为零，而大约 45% 的快乐（即幸福）类别的条件熵为零。作为一个直观的例子，大多数与聚会相关的场景上下文都存在于快乐类别的样本中，而在负面类别中几乎不存在。这些观察结果证实了 CAER 数据集中存在严重的上下文偏差，导致不同上下文中情绪类别的分布差距和视觉表征不均匀。

研究思路：

受上述观察的启发，尝试采用因果推理[31]来揭示毒害 CAER 模型的罪魁祸首，而不是专注于击败它们。作为一种促进模型进行无偏预测的革命性科学范式，将经典因果推理应用于现代 CAER 任务的最重要挑战是如何合理地描述真实的因果效应并识别特定于任务的数据集偏差。为此，本文试图利用人类本能，即寻找任何关联背后的因果关系，来应对这一挑战并拯救充满偏见的模型。

作者的方法：

具体来说，提出了一种基于因果关系的偏差缓解策略。首先通过提出的因果图制定 CAER 任务的流程。在这种情况下，数据集中有害的上下文偏差本质上是一种意想不到的混杂因素，它会误导模型学习相似上下文和特定情感语义之间的虚假相关性。从图 3 中，理清了输入图像 X、主题特征 S、上下文特征 C、混杂因素 Z 和预测 Y 之间的因果关系。

然后，提出了一个简单而有效的上下文因果干预模块（CCIM）来实现上下文去混杂训练，并使用do演算P（Y | do（X））来计算真实的因果效应，这与传统的可能性 P (Y |X)。 CCIM 是插件且与模型无关的，通过后门调整 [14] 来消除混杂因素并消除上下文偏差的影响。在三个标准和有偏差的 CAER 数据集上综合评估了 CCIM 的有效性和优越性。大量实验和分析表明，CCIM 可以显着且持续地改进现有基线，实现新的最先进水平 (SOTA)。

主要贡献可概括如下：

据我们所知，是第一个从因果推理角度研究 CAER 任务中数据集的不利上下文偏差的人，并发现这种偏差是一个混杂因素，它会误导模型学习虚假相关性

提出了 CCIM，一个插件式情境因果干预模块，它可以插入到大多数 CAER 模型中，以消除由上下文因果干预引起的副作用。混淆并促进不同背景对情感理解的公平贡献。

对三个标准 CAER 数据集的大量实验表明，所提出的 CCIM 可以促进现有模型实现无偏预测。

Methodology

3.1. Causal View at CAER Task

首先，制定一个定制的因果图来总结 CAER 框架。特别是，由于其直观性和可解释性，在结构化因果模型[32]中遵循相同的图形符号。它是一个有向无环图 G = {N , E} ，可以与数据配对以产生定量的因果估计。节点 N 表示变量，链接 E 表示直接因果效应。如图3所示，CAER因果图中涉及五个变量，分别是输入图像X、主题特征S、上下文特征C、混杂因素Z和预测Y。请注意，因果图适用于各种 CAER 方法，因为它非常通用，对详细实现没有任何限制。因果关系的细节如下所述。

Z→X：

不同的主体被记录在不同的上下文中以产生图像X。一方面，注释者对主体的情绪状态做出主观和有偏见的猜测并给出他们的注释[18, 20]，例如，主体在植被覆盖的环境中，人们通常会被盲目地分配积极情绪。另一方面，数据性质导致现实世界中情感的不平衡表示[13]。也就是说，在舒适的氛围中比在消极情绪中更容易收集积极情绪。上述情况引起的上下文偏差被视为有害的混杂因素Z，以在相似的上下文和特定的情感语义之间建立虚假的联系。对于输入图像 X，Z 确定记录的有偏差内容，即 Z → X。

Z→C→Y

C 表示上下文特征提取器获得的总上下文表示。 C可能来自基于不同方法的不同上下文特征的聚合。因果路径 Z → C 表示有害的 Z，使模型学习 C 的不可靠的情感相关上下文语义。在这种情况下，不纯的 C 进一步影响情感标签的预测 Y，可以通过链接 C → Y 反映出来。尽管当受试者的特征不明确时，Z 可能会提供训练数据的先验信息以便更好地进行估计，但它会误导模型在训练期间捕获虚假的"上下文-情感"映射，从而导致有偏差的预测。

X → C → Y & X → S → Y

S 表示主题特征提取器获得的总主题表示。根据不同的方法，S可能来自面部、身体或它们特征的整合。在 CAER 因果图中，可以看到 X 对 Y 的预期效果遵循两条因果路径：X → C → Y 和 X → S → Y。这两条因果路径反映了CAER模型根据从输入图像X中提取的上下文特征C和主题特征S来估计Y。在实践中，C和S通常被综合起来共同做出最终的预测，例如特征串联[29] ]。

根据因果理论[31]，混杂因素Z是输入图像X和相应预测Y的共同原因。提供有价值语义的上下文和主题特征的积极影响遵循因果路径 X→C/S→Y，这是我们的目标。不幸的是，混杂因素 Z 会导致误导模型关注虚假相关性而不是纯粹的因果关系的负面影响。这种不利影响遵循后门因果路径 X ← Z → C → Y 。

3.2. Causal Intervention via Backdoor Adjustment

在图 3(a) 中，现有的 CAER 方法依赖于可能性 P (Y |X)。这个过程由贝叶斯规则表述：

其中，fs(-) 和 fc(-) 是两个广义编码函数，分别用于获得 S 和 C 的总量。混淆项 Z 通过 P (z|X) 引入了观察偏差。

需要解决的关键问题：

为了解决 Z 带来的混淆效应，并使模型依靠纯粹的 X 来估计 Y，一个直观的想法是干预 X，迫使每个语境语义公平地与情感预测相一致。

该过程可以被视为通过收集在任何背景下具有任何情绪的受试者的图像来进行随机对照实验。然而，由于现实世界中结合了各种主题和背景的无数图像，这种干预是不可能的。

解决方案：

为了解决这个问题，基于后门调整[31]对 Z 进行分层，以实现因果干预 P (Y |do(X)) 并阻止 X 和 Y 之间的后门路径，其中 do-calculus 是富有想象力的干预[14]。

具体来说，寻求分层上下文的影响，然后根据训练数据中包含不同上下文原型的样本比例计算加权平均值来估计平均因果效应。

在图 3(b) 中，从 Z 到 X 的因果路径被切断，模型将近似因果干预 P (Y |do(X))，而不是虚假关联 P (Y |X)。通过在新图上应用贝叶斯规则，方程： (1) 干预可表述为：

由于 z 不再受 X 的影响，干预有意迫使 X 将每个 z 公平地纳入 Y 的预测中，但须遵守每个 z 在整体中所占的比例。

3.3. Context-Deconfounded Training with CCIM

实施等式2中的理论和想象力干预，提出了上下文因果干预模块（CCIM）来实现模型的上下文去混杂训练。

从图4（b）所示的CAER任务的通用流程来看，CCIM以插件的方式插入到现有方法的原始集成特征之后。然后，CCIM 的输出在通过最终的特定于任务的分类器后执行预测。 CCIM 的实现如下所述。

混杂词典

由于现实世界中的语境数量庞大，而训练集中又没有真实的文本信息，因此将其近似为一个分层混杂词典 Z = [z1, z2, ... , zN ]，其中 N 是表示超参数大小，每个表示一个上下文原型。

图4(a)的流程介绍：

如图 4(a)所示，首先根据目标对象的边界框屏蔽每张训练图像中的目标对象，生成上下文图像集 I。随后，图像集I被馈送到预训练的骨干网络φ(·)以获得上下文特征集，其中是训练样本的数量。

为了计算上下文原型，使用 K-Means++ 和主成分分析来学习 Z，以便每个代表上下文簇的一种形式。每个簇被设置为 K-Means++ 中每个簇的平均特征，即，其中是第 i 个簇中上下文特征的数量。

提议的 CCIM 的实例化。由于 P (Y |do(X)) 的计算需要对所有 z 进行多次前向传递，因此计算开销非常昂贵。为了降低计算成本，应用归一化加权几何平均（NWGM）[48]来近似上述在特征层面的期望值为

受[45]的启发，参数化网络模型以逼近上述方程(3)的条件概率如下：

其中和是可学习参数，。(·) 是一种融合策略（例如，串联），它将 s 和 c 集成到联合表示 h 中。

请注意，上述近似是合理的，因为对 Y 的影响来自 S、C 和混杂因素 Z。立即，将 Ez [g(z)] 近似为所有上下文原型的加权积分：

其中λi是权重系数，衡量每个zi在与原始特征h交互后的重要性，并且。在实践中，提供了 λi 的两种实现：点积注意力和加注意力：

其中、和是映射矩阵。

4. Experiments

4.1. Datasets and Evaluation Metrics

数据集。实验是在 CAER 任务的三个标准数据集上进行的，即 EMOTIC [20]、CAER-S [22] 和 GroupWalk [29] 数据集。

EMOTIC 包含不受控制的环境中 34,320 个带注释的主题的 23,571 张图像。这些图像的注释包含目标对象身体区域的边界框和 26 个离散的情感类别。数据集的标准划分是 70% 训练集、10% 验证集和 20% 测试集。

CAER-S 包括从 79 个电视节目视频片段中提取的 70k 张静态图像，用于预测情绪状态。这些图像被随机分成训练图像（70%）、评估图像（10%）和测试图像（20%）。这些图像标注了 7 种情绪类别：愤怒、厌恶、恐惧、快乐、悲伤、惊喜和中性。

GroupWalk 包含 45 段视频，这些视频是在 8 个真实世界环境中使用固定摄像头拍摄的。注释由以下离散标签组成：愤怒、快乐、中性和悲伤。数据集分为 85% 训练集和 15% 测试集。

评估指标遵循 [19, 29]，我们利用平均精度 (mAP) 来评估 EMOTIC 和 GroupWalk 的结果。对于CAER-S，使用标准分类精度进行评估。

4.2. Model Zoo

受限于大多数方法都不是开源的，选择了四种有代表性的模型来评估CCIM的有效性，它们具有不同的网络结构和上下文探索机制。

EMOT-Net [19] 是一个基线卷积神经网络有两个分支的模型。其独特的分支分别捕获前景身体特征和背景上下文信息。

GCN-CNN [56]利用不同的上下文元素构建情感图，并根据图卷积网络（GCN）推断情感关系。

CAER-Net [22] 是一个双流 CNN 模型，采用自适应融合模块来推理情绪。该方法侧重于隐藏面部后整个图像的上下文以及面部区域提供的情感线索。

EmotiCon [29] 引入了三个上下文感知流。除了以主题为中心的多模态提取分支之外，他们还建议使用视觉注意力和深度图来分别学习场景和社会动态上下文。

对于 EMOT-Net，我们按照可用代码重新实现模型。同时，我们根据上述 SOTA 方法（即 GCN-CNN、CAER-Net 和 EmotiCon）中报告的详细信息在三个数据集上重现结果。

4.3. Implementation Details

混杂因素设置。首先，除了有注释的 EMOTIC 外，利用预先训练好的 Faster R-CNN [36] 来检测 CAER-S 和 GroupWalk 上每个训练样本的目标对象的边界框。然后，根据边界框在训练样本上屏蔽目标对象，生成上下文图像。然后，使用在 Places365 [58] 数据集上预先训练过的 ResNet-152 [15] 来提取上下文特征集 M。每个上下文特征 m 都是从最后一个池化层中提取的，隐藏维度 d 为 2048。Places365 中丰富的场景上下文特征有助于从预训练骨干中获得更好的上下文原类型。在 EMOTIC、CAER-S 和 GroupWalk 中，Z 的默认大小 N（即簇数）分别为 256、128 和 256。

训练详情。CCIM 和可重现方法是通过 PyTorch 平台实现的[33]。在四个 Nvidia Tesla V100 GPU 上进行训练。为了公平比较，这些模型的训练设置（例如损失函数、批量大小、学习率策略等）与其原始论文中报告的细节一致。对于我们的 CCIM 的实现，隐藏维度 dm 和 dn 分别设置为 128 和 256。不同方法中联合特征h的输出维度dh分别为256（EMOT-Net）、1024（GCN-CNN）、128（CAER-Net）和78（EmotiCon）

4.4. Comparison with State-of-the-art Methods

将基于 CCIM 的模型与最新的 SOTA 方法进行了全面比较，包括 RRLA [23]、VRD [16]、SIB-Net [24] 和 GRERN [12]。默认设置使用等式的点积注意力（6）。EMOTIC 数据集的结果。表 1 显示，CCIM 显著改进了现有模型，并达到了新的 SOTA。具体来说，基于CCIM的EMOT-Net、GCN-CNN、CAER-Net和EmotiCon的mAP得分分别提高了2.95%、3.56%、2.66%和3.85%，远远超过了传统方法。

GroupWalk 数据集上的结果。如表 2 所示，在 GroupWalk 数据集上，CCIM 有效地提高了 EMOT-Net、GCN-CNN、CAER-Net 和 EmotiCon 的性能。这些模型的 mAP 分数分别提高了 2.41%、2.99%、2.25% 和 3.73%。

CAER-S 数据集的结果。表 3 报告了不同方法在 CAER-S 数据集上的准确性。CCIM 持续提高了 EMOT-Net、GCN-CNN 和 CAER-Net 的性能，使得每个上下文原型都对模型做出了相当大的贡献。情绪分类结果。