2024.9.23-2024.9.29组会报告

基于注意力机制多尺度网络的自然场景情绪识别

论文解决的问题

人脸在自然场景中存在光照不均匀、遮挡和拍摄角度等问题,导致难以准确识别其情绪状态.

关于姿态情绪的识别，同一种姿态

"有效融合人物与场景信息,在 EMOTIC 数据集下能够明显提高情绪识别率" (pdf)

论文使用的方法

在现有基础上，本模型关注了任务在场景中的不确定性以及场景信息的复杂性，提出了一种基于注意力机制的多尺度网络情绪识别模型。有两个分支，对于人物，提取特征的同时使用注意力机制学习当前人物情绪的置信度；对于场景，使用特征金字塔提取不同尺度的特征图，其中高阶语义使用空间注意力机制学习场景中的主要信息，最后融合双分支网络获得情绪分类的结果。

最终取得的效果与展望

".网络结构由人物分支与场景分支组成 ,针对人物分支设计的身体注意力机制能够有效预判当前人物对情绪识别的置信度,针对场景分支,融合空间注意力机制和特征金字塔可以进一步探索场景中的全局 -局部情绪线索" (pdf)

"虽然本文方法在识别精度上有较好的结果,但仍然有进一步的提升空间, 主要原因是在对人物分支以及数据集不平衡的研究有限,在后续研究中,会考虑融合行为识别和改进训练策略等方式 ,提升算法识别的精度" (pdf)

涉及到的专有名词

置信度

置信度是衡量模型预测准确性的一个重要指标。在机器学习和统计学中，置信度通常用来表示模型对其预测结果的"信心"程度。不同的模型和方法可能会产生不同的置信度估计。

**基于熵的置信度估计**：这种方法通过计算预测概率的熵来评估置信度。熵是信息论中用来衡量不确定性的指标，其值越低，表示模型对其预测结果越有信心。一种简单的基于熵的置信度测量方法是使用吉布斯熵，通过对熵值进行归一化处理，可以得到一个介于0和1之间的置信度分数。
**基于距离的置信度分数**：在多模态融合分类网络中，提出了一种基于距离的置信度分数计算方法。这种方法通过在嵌入空间中计算样本之间的距离来进行局部密度估计，从而计算模型的置信度分数。这种方法不仅可以用于单模态模型，还可以扩展到多模态融合模型中，用于量化不同模态数据对模型决策的影响。
**系统仿真置信度评估**：在系统仿真领域，置信度评估是确保仿真结果可靠性的关键步骤。这通常涉及到仿真模型的验证、验证和认证（VVA）过程。通过假设检验法（如U检验、K-S检验等）和动态性能评估方法（如卡尔曼滤波、频谱分析等），可以对仿真系统的置信度进行评估。

在实际应用中，选择合适的置信度评估方法取决于具体的任务需求、数据类型和模型结构。例如，在自动语音识别（ASR）中，基于熵的方法可以提供对单词级预测置信度的快速估计；而在多模态数据融合中，基于距离的置信度分数可以帮助理解不同数据模态对最终决策的贡献。

注意力机制

注意力机制是深度学习中的一种关键技术，它模仿了人类视觉系统关注特定区域的能力，用于提高模型处理复杂数据的能力。注意力模型在多个领域和任务中都有应用，如文本分类、图像描述、情感分析和语音识别等。

在计算机视觉领域，注意力机制通过关注图像的重要部分来降低计算复杂性，同时提高模型的性能。而在自然语言处理领域，注意力机制的引入是为了解决循环神经网络在机器翻译中的某些结构问题。

注意力模型的核心思想是，模型在处理输入数据时，能够聚焦于信息丰富的特定部分，而忽略其他不太重要的部分。这种机制可以通过不同的方式实现，例如自注意力（Self-attention）和多头注意力（Multi-Head Attention）。

自注意力是一种特殊类型的注意力机制，它关联同一序列中的不同位置，以计算序列的表示。这种机制在阅读理解、抽象总结、文本蕴含和学习任务独立的句子表示等任务中取得了成功。

多头注意力通过在不同的表示子空间中并行执行多个注意力函数，允许模型在不同位置联合关注信息。这使得模型能够更丰富地表示数据。

在实际应用中，例如机器翻译，注意力机制可以帮助模型更好地捕捉源语言和目标语言之间的长距离依赖关系。在图像处理任务中，注意力机制可以帮助模型集中于图像中的关键特征，从而提高分类或分割的准确性。

注意力机制的一个重要优势是它可以与基本模型（如循环神经网络或卷积神经网络）一起训练，并且可以通过常规的反向传播进行优化。此外，注意力机制还可以提高模型的可解释性，因为它可以直观地展示模型在做出决策时关注的信息部分。

总的来说，注意力机制是深度学习中一个非常强大和灵活的工具，它能够在多种任务和数据类型中提高模型的性能和解释能力。