论文解读-对话中的多模态情感识别综述

一、简要介绍

尽管基于文本的情感识别方法已经取得了显著的成就，但现实世界中的对话系统往往需要比单一模态所能提供的更加细腻的情感理解。因此，多模态情感识别（MERC）成为了提升人机交互自然性和情感理解的关键方向。其目标是通过整合文本、语音和视觉信号等不同模态的信息，准确地识别情感。本综述系统地概述了MERC，包括其动机、核心任务、代表性方法和评估策略。论文进一步探讨了最近的趋势，指出了关键挑战，并概述了未来的发展方向。随着对情感智能系统兴趣的增长，本综述为MERC研究的进展提供了及时的指导。

二、研究背景

对话中的情感识别（ERC）是自然语言处理领域中一个日益重要的任务，主要关注识别对话中每个话语背后的情感状态。与传统上对孤立句子进行情感分类不同，ERC需要理解话语之间的互动，并跟踪对话中特定说话者的上下文。由于其在社交媒体监控、智能医疗保健服务以及设计情感感知的对话代理等实际应用中的潜力，ERC的重要性日益凸显。

然而，人类的情感通常是通过多种感官渠道来传达的，包括听力、视觉和语言。因此，近期的研究越来越多地关注对话中的多模态设置，这一领域被称为对话中的多模态情感识别（MERC）。研究者们通过整合不同模态的上下文信息，旨在识别特定话语背后的情感状态，这些信息通常包括微妙的个人情感，如快乐、愤怒和仇恨，从而提高对话中情感识别的准确性。图1展示了一个包含文本、声学和视觉输入的ERC示例。

多模态情感识别（MER）因其在整合不同模态方面的挑战而日益受到关注，这促使了在非对话和对话场景下的研究。现有的综述聚焦于非对话型的多模态理解（MER），却忽略了对话者建模和上下文等关键要素。Fu等人（2023）对单模态及多模态对话式MER进行了综述，但主要关注特征融合，对跨模态对齐、推理、模态缺失及冲突等核心挑战的探讨较为有限。

尽管兴趣日益增长，MERC任务仍被忽视。现有的综述也未能跟上最近的进展，尤其是多模态大型语言模型（MLLMs）的兴起。为了弥补这一差距，论文提供了一篇及时且全面的MERC任务综述。首先，论文介绍了任务定义和调查方法，基准数据集和评估方法，接着回顾了预处理技术；然后对最近的方法进行了分类，并概述了关键挑战和未来展望。

总之，本次调查的具体贡献有三个方面：

**MERC近期研究成果汇编。**论文系统回顾并整合了MERC近年来在各类数据集和方法论方面取得的最新研究进展。

总结并比较了多种MERC方法，评估了各MERC方法的优势与局限性，提供了理论洞见和实践指导，帮助研究人员和实践者选择合适的方法。

**提出挑战和未来方向。**论文确定了MERC领域中的关键开放问题，并提出了几个潜在的未来研究方向，旨在指导研究人员和从业者在 MERC领域的正在进行和未来的研究。

三、任务设置和评估方法

在本节中，论文介绍了MERC的任务设置，并概述了编译本综述内容所采用的方法，详细说明了为本调查策划最终内容所采用的策略和选择标准。

任务定义。给定一个对话，该对话由多个说话者说出的N个话语组成，MERC任务的目标是为每个话语预测一个情感标签。每个话语都与三种模态相关联：文本（）、声音（）和视觉(），这些模态为情感识别提供了互补信息。话语的多模态表示形式如下：

**文献汇编方法。**论文通过ACL文集、Google学术及通用搜索引擎等资源，开展全面的文献检索工作。在ACL文集中，论文重点关注顶级会议，如EMNLP、ACL、NAACL及其相关研讨会。

**选择标准。**论文挑选与MERC直接相关的论文，特别关注那些至少使用了两种模态（如文本、音频、视觉）的作品，这些作品包含了对话背景，并在IEMOCAP、MELD和CMU-MOSEI等基准数据集上进行了评估。论文优先考虑2020年及以后的最新论文，以反映当前的研究水平，同时在适当的情况下也包括基础性研究，以提供历史背景。选择是基于对每篇论文的摘要、引言、结论和局限性的仔细审查。

四、数据集和评估

在本节中，论文介绍了MERC任务所使用的评估数据集和评估指标，重点关注多语言的多模态资源。关于单一基准的详细信息，请参见附录A。

数据集。 论文将现有的主流数据集分为以下两类：

(1) 以英语为中心的数据集，包括IEMOCAP、MELD、CMUMOSEI、AVEC、EmoryNLP和MEmoR；

(2) 非英语数据集，涵盖M-MELD（法语、西班牙语、希腊语、波兰语）、ACE（非洲语言）以及M3ED（普通话）。

如表1所示，多模态数据集所涵盖的领域随着时间的推移变得越来越多样化。这些数据集的来源包括电视剧、视频和电影。同时，语言多样性也扩展到了法语、西班牙语、希腊语、波兰语和普通话等语言。值得注意的是，针对低资源语言的数据集，如非洲语言，也越来越多地出现。

评估指标方面，现有研究通常采用多种评估指标来全面评估模型的整体性能，包括准确率、weighted-F1分数、macro-F1分数和micro-F1分数。为了实现更细致的分析，这些研究还报告了每种情感的指标分数。

五、特征处理

预处理数据集特征对于有效提取有意义的信息至关重要。论文总结了先前MERC研究中采用的特征预处理方法，并分析了典型的预处理流程，该流程通常针对对话场景进行定制。具体来说，论文区分了两个关键组件：特征提取和上下文建模。

**特征提取。**为了实现有效的多模态分析，必须首先从每个模态流（文本、音频、视觉）中提取特征。主流方法通常在这一初始阶段分别处理这些模态。尽管核心提取技术往往有重叠，但在多模态设置中，关键区别在于这些特征的使用目的和后续应用。在单模态情感识别中，提取器的目标是在单一模态内捕捉足够信息以进行情感分类。表2概述了本文调查的多模态研究中常用的特征提取模型。

上下文建模主要涉及两种类型的上下文依赖：情境级建模和说话者级建模。

情境级 **。**说话者的情绪状态不仅受当前话语语义内容的影响，还受到周围语境语义的影响。因此，现有的方法通常采用专门的网络来建模话语间的顺序依赖关系，旨在更准确地捕捉说话者的时间情感动态。

说话者级 。说话者身份信息通常表现出情绪的时间和关系属性，这可以增强模型感知说话者角色信息的能力。因此，为了更有效地学习和区分说话者级别的上下文表示，许多研究在对话上下文建模的基础上引入了与说话者相关的结构化信息。常用的方法包括使用说话者嵌入来明确区分不同的说话者，或利用图神经网络构建说话者之间的交互图，从而更全面地建模他们之间的依赖关系：

六、方法

本节探讨了MERC任务的最新方法。论文从三个角度进行了总结：基于图的方法、基于融合的方法以及基于生成的方法。图2展示了这些方法及其子类别的概述，并附有代表性示例。

6.1 基于图的方法

对话可以自然地被解释为图结构，因为话语之间存在内在的相关性和依赖性。对话通常涉及多轮互动，具有复杂的依赖和交互模式，这些可以通过图神经网络（GNNs）的边结构进行有效建模（Scarselli等，2009）。随着对多模态对话理解的兴趣日益增加，GNNs的应用已从文本数据扩展到多模态输入（Liu等，2024a）。此外，最近的方法还集成了辅助模块（如卷积、对比学习和融合），以提升性能。图3展示了基于图的方法的最新进展。论文将它们分为传统图、超图和傅里叶图神经网络。

**传统的图神经网络。**早期的研究，如bc- LSTM和ICON，主要采用顺序方法。DialogueGCN首次将图神经网络引入对话关系分类任务，解决了早期基于序列的模型在捕捉上下文依赖性方面的局限。为了有效整合不同模态的信息，Hu等人( 2021b）构建了一个融合多模态特征的图结构，使模型能够通过图卷积网络捕捉跨模态的依赖关系，并结合说话者信息以增强对话语义的表示。受图卷积在ERC中应用的启发，GSF模块引入了交替图卷积机制，分层提取跨模态和模态内的情感信息。一些研究进一步通过注意力机制增强了基于图的模型，以实现多模态融合；例如，Feng和Fan（2025）集成了一个跨模态注意力模块，以更好地融合不同模态中的有用信息，而Nguyen等人（2023）设计了一个跨模态注意力机制，以明确建模模态间的异质性。

**超图神经网络。**尽管传统的基于图的方法能够捕捉长距离和多模态的上下文信息，但在对话中，这些方法常因模态缺失而面临挑战。Lian等人（2023）通过端到端地联合优化分类和重建任务，有效解决了这一问题，建模了不完整数据。相关研究探讨了图神经网络节点间成对关系的限制。Van等人（2025）构建了一个多模态融合图，并引入了超图神经网络，同时连接多个模态或话语节点，从而捕捉对话中更复杂的多变量依赖和高阶交互，增强了情感传播的建模。

**傅里叶图神经网络。**增加图神经网络（GNN）层的深度可能会导致过度平滑的问题，这阻碍了对长距离语义依赖和互补模态关系的建模。为了解决这一问题，GS-MMC提出了一种基于图的框架，用于多模态的一致性和互补性学习。该方法利用傅里叶图算子从频域中提取高频和低频情感信号，捕捉局部变化和全局语义趋势。此外，还设计了一种对比学习机制，以自监督的方式增强这些信号的语义一致性和互补性，从而提高模型识别真实情感状态的能力。

6.2 基于融合的方法

在MERC中，异构多模态特征的有效融合至关重要，但这一过程因交互建模时引入的噪声而变得极具挑战性。Transformer架构通过其自注意力机制，促进了MERC方法在捕捉跨模态和上下文依赖方面的进步。为了增强跨模态的互动，最近的方法在Transformer的基础上采用了定制的融合策略。论文将这些方法称为基于融合的方法，并在图4中进行了说明。一些方法通过促进模态间的平等互动来提高鲁棒性，而其他方法则采用主辅模式，通常以文本为核心，其他模态提供补充信号。

**等模态权重。**等交互可以充分利用来自不同模态的信息，避免过度依赖单一模态。Li等人（2022）提出通过整合不同模态的情感向量和句子向量，形成情感胶囊，实现情感识别。Zhang和Li（2023）设计了一个局部约束模块，用于Transformer内部的模态交互，促进模态间的互动，并引入了语义图来解决话语间缺乏语义关系信息的问题。Mao等人（2021）构建了一个分层Transformer，每个模态可以根据上下文信息灵活地在顺序和前馈结构之间切换。受分层模态交互的启发，Ma等人（2024a）将分层门控融合策略引入Transformer架构，实现细粒度的模态交互，并设计了自蒸馏以进一步学习更好的模态表示。

**文本主导模态。**一些方法提出了基于主-辅助模态协作的模型，其中辅助模态用于提升主（文本）模态的表现。Huang等人（2024b）提出，通过辅助模态增强文本主导模型可以提高其性能。Zou等人（2022）采用Transformer架构设计了跨模态注意力机制，用于学习不同模态之间的融合关系，既保持了主模态特征的完整性，又增强了较弱模态特征的表现。它还采用了一个两阶段的情感线索提取器来提取情感证据。在此基础上，Zou等人（2023）提出，在对较强模态进行深度情感线索提取时，可以使用较弱的模态作为多模态提示。将线索信息嵌入Transformer的各个注意力层，以促进主模态与辅助模态之间的信息融合。Zhu等人（2024）引入了一个不对称的CMA-Transformer模块，用于中心和辅助模态，以获取融合的模态信息，并提出了一种分层蒸馏框架，以实现粗粒度和细粒度的蒸馏。这种方法确保了不同粒度模态融合信息的一致性。

6.3 基于生成的方法

近年来，预训练的大语言模型（LLMs）在自然语言处理任务中取得了显著成就（Chu等，2024），展现了强大的涌现能力（Wei等，2022）。然而，尽管这些模型具备强大的通用能力，要在特定子任务中充分发挥其潜力，仍需精心设计高质量的提示（Wei等，2021），以弥补推理能力上的不足。如图5所示，研究人员提出了多种模型改进策略，旨在有效整合上下文和多模态信息，同时解决这些模型对计算资源的巨大需求。

**指令调优与说话人及上下文建模。**ERC任务主要依赖于判别性建模框架。随着大语言模型（LLM）的兴起，InstructERC首次提出了ERC的生成框架。该框架引入了一个简单而有效的基于检索的提示模块，帮助LLM显式地整合对话中的多粒度监督信号。此外，它还结合了一个辅助的情感对齐任务，以更好地模拟对话中说话者之间复杂的情感变化。受COSMIC中常识知识整合的启发，近期的研究设计了一种基于对话历史的提示生成方法，通过将常识知识注入ERC，利用LLM提取与说话人相关的常识。

**行为感知与多模态指令调优。**为了解决多模态整合不足的问题，Dutta和Ganapathy（2025）将声学和文本模态结合使用。鉴于视觉信息能提供更丰富的情感线索，Zhang等（2024b）利用图像和文本数据构建了一个高质量的指令数据集，并通过低秩自适应（LoRA）技术对模型进行了微调。此外，Fu等（2025b）提出了一种基于行为感知的多模态语言模型（MLLM）的ERC框架。该框架由三个核心部分组成：视频生成的行为模块、行为对齐与精炼模块以及指令调优模块（Wei等，2021）。前两个模块使模型能够从有限的信息中推断人类行为，从而增强其行为感知能力。指令调优模块通过对多模态输入进行对齐和微调，提高了模型的情感识别性能。

**轻量级多模态融合与适应。**随着大型语言模型（LLMs）的规模不断扩大，其在情感计算中的计算成本也显著增加。受为情感计算设计的特定领域LLM范式的启发，MSE-Adapter提出了一种轻量且灵活的插件架构，该架构包含两个模块：TGM，用于文本和非文本特征的对齐；MSF，用于多尺度跨模态融合。该架构基于冻结的LLM主干，并通过反向传播训练，能够以最小的计算成本实现高效且多模态感知的情感计算。同样，SpeechCueLLM引入了一种轻量级插件，可以将语音特征转换为自然语言提示，使LLMs能够在不改变架构的情况下执行多模态情感识别。

七、挑战与展望

基于当前MERC任务的趋势和发展，本节概述了几个现有的挑战和开放问题，强调了未来改进的机会。论文按照逻辑顺序展开讨论：首先探讨数据收集和FAIR合规性的基础限制，接着分析多模态建模的挑战，最后讨论实际部署中的考虑因素。这一过程反映了数据和建模中的上游问题如何影响下游，最终影响MERC系统的稳健性、包容性和适用性。

**FAIR原则在MERC中提出了挑战。**这些原则旨在提高数字资产的可发现性、可访问性、互操作性和可重用性。收集大规模且多样的多模态情感数据既费钱又耗时；一些大型对话数据集仍然局限于单一语言和特定领域。这些限制与FAIR原则相冲突。一些ERC数据集缺乏丰富的元数据或持久标识符，影响了其可发现性和互操作性。其他数据集则受到访问限制或版权约束，而许多数据集采用不一致的标签方案，阻碍了模型的可重用性。因此，研究人员往往只能使用小规模或有偏见的数据集进行训练，这影响了模型的泛化能力和重用性。

**低资源、多语言和多元文化环境。**如前文所述，大多数最先进的MERC系统都是基于英语数据集训练的，这限制了它们在全球范围内的应用。尽管构建大规模、多样化的MER语料库至关重要，但这一目标仍面临巨大挑战，因为需要专家对数据进行标注。由于标注数据有限，研究人员不得不依赖迁移学习、零样本学习或少样本方法。然而，数据稀缺和情感标注的高成本仍然是低资源领域中MER的主要障碍。情感在不同语言和文化中的表达方式各不相同，这进一步增加了MER（多语言情感识别）的挑战。由于文化差异，情感表达和解释的差异可能导致标签的一致性问题。大多数现有的语料库都是特定于某种文化的，这限制了它们的普遍适用性。尽管研究人员已经认识到这一挑战，但旨在实现全球适用性的MER系统必须同时考虑语言的多样性和文化驱动的表达规则。

**跨模态融合策略的复杂性。**多模态融合技术包括早期融合、中期融合、晚期融合、混合融合等。一个主要挑战在于，对话信号如语音、面部表情和转录文本本质上是异步的，并且发生在不同的时间尺度上，这使得在话语层面对齐这些信号变得困难。此外，情感表达还受到前后对话轮次背景的影响，因此模型必须能够捕捉到时间动态的变化。

先前的研究通过使用循环或自注意力层来建模序列上下文，但长距离依赖关系的学习仍然具有挑战性。如何在决策过程中平衡并整合上下文情感线索特征与多模态融合特征，以及如何确定哪些融合策略在不同模态中最为有效，仍然是开放且重要的研究课题。

**跨模态对齐、噪声模态、缺失模态和模态冲突。**特征不一致或错位会阻碍模型充分利用多模态信号，影响其稳健性和泛化能力。噪声模态、缺失模态或模态分布不平衡可能会使简单的融合策略产生偏差。即使所有模态都可用，它们也可能传达出相互矛盾的情感信号，进一步增加融合和决策的复杂性。感知不同模态的不确定性以增强特征，并解决模态特征之间的冲突，是机器情感理解研究中需要进一步探索的重要领域。因此，探索跨模态迁移与融合以提升ERC的泛化能力，这一领域正吸引着越来越多的研究者。一些ERC方法采用了跨模态注意力机制的变体，基于图的融合技术，以及通过训练期间的相互学习来对齐特征，从而提升跨域性能。

**有效模态选择。**多模态学习是指整合来自不同异质来源的信息，旨在充分利用来自多种模态的数据。在多模态表示学习中，并非所有模态对任务的贡献都是等同的。某些模态可能引入噪声，需要被移除；而其他模态虽然对当前任务不是必需的，但对其他子任务可能是不可或缺的。现有研究提出了模态选择算法，用于识别每个模态的贡献。然而，为特定任务选择最合适的模态子集仍然是多模态学习中的一个关键挑战。

**利用多模态语言模型（LLMs）的高效微调方法。**多模态LLMs在使机器跨模态学习方面取得了重大进展。一些模型越来越多地应用于多模态情感识别（MERC），能够实现不同模态下的零样本或少量样本泛化。在MERC中使用LLMs为捕捉更深层次的语义和对话线索开辟了新的可能性，而不仅仅是表面的情感信号。然而，对于情感理解的高效微调这些模型仍然面临挑战，尤其是在资源有限和文化多样化的环境中。如何高效地适应多模态语言模型（MMLMs），以捕捉不同数据集、语言或跨文化背景下情感的细微差别，仍然是一个开放的研究领域。

MERC应用。 随着交互式机器应用的日益普及，MERC成为了一个重要的研究领域。在人机交互、医疗保健、教育以及虚拟协作等领域的应用中，需要开发出能够在自然和动态环境中有效运行的、强大且适应性强的情感识别技术。Yang等（2022）研究了在面部遮挡情况下，如手术口罩和织物口罩的影响下，情感识别（MER）技术的应用。Khan等（2024）探讨了非接触式情感识别技术，调查了多种非侵入性模式，如视觉线索和生理信号。Huang（2024）开发了一套用于在线学习的情感识别系统，能够实时监测并反馈学习者的情绪状态。这些研究指出了推进MERC系统发展的关键方向，特别是提高其鲁棒性和情境感知能力。未来的研究应继续关注实际应用场景。

八、结论

MERC旨在通过整合语言、声学、视觉信号等多种模态，来理解情感。尽管最近的研究引入了多种建模策略，但在数据稀缺、模态对齐以及跨语言和文化的泛化方面仍面临重大挑战。

本调查对MERC领域进行了结构化的回顾，比较了代表性方法，并突出了关键的开放研究问题。作者希望它能作为实用参考，支持未来开发稳健且包容的情感识别系统。