【关于多模态情感识别数据集的报告】

在多模态情感识别（Multimodal Sentiment Analysis, MSA）领域，数据集的选择直接决定了研究的场景和难度。目前主流的数据集主要涵盖**文本（Text）、语音（Audio）和视觉（Vision/Video）**三个模态。

目前学术界最常用的几个核心数据集，并分析了它们之间的区别：

以下是整理后的Markdown格式表格：

数据集名称	主要模态	数据来源	规模（片段数）	情感标注类型
CMU-MOSI	T + A + V	YouTube 视频回馈	2,199	情感极性 [-3, +3]
CMU-MOSEI	T + A + V	YouTube (多领域)	23,453	极性 [-3, +3] + 6类情绪
IEMOCAP	T + A + V	实验室录制对话	10,039	9类情绪类别
MELD	T + A + V	美剧《老友记》	13,000+	7类情绪 + 3类极性
CH-SIMS	T + A + V	中文影视剧/短视频	2,281	中文单模态+多模态标注

注：

A. 场景真实度 (In-the-wild vs. Lab)

答：野外与实验室

CMU-MOSI/MOSEI 属于"野外"数据集。数据来自 YouTube 上的博主分享，背景噪音多、光线变化大、表达非常自然，是目前测试算法鲁棒性的首选。

IEMOCAP 是典型的"实验室"数据集。由专业演员按照剧本或命题进行表演并录制。虽然不够"野外"，但它的信号质量极高，非常适合研究细微的面部表情和语音特征。

B. 交互模式 (Monologue vs. Conversation)

单人演说 (Monologue): MOSI 和 MOSEI 主要是演讲者对着摄像头表达观点。研究重点在于如何融合一个人的三种模态信息。

多人对话 (Conversation): MELD 和 IEMOCAP 是对话式数据集。这要求模型不仅要看当前的模态，还要考虑上下文（Context）。比如在《老友记》(MELD) 中，某人的一句话是幽默还是讽刺，往往取决于前一个人说了什么。

C. 标注的深度与粒度

情感极性 (Sentiment): MOSI/MOSEI 强调的是"好感度"，标注是连续的数值（如 -3 到 +3），适合做回归任务。

情绪类别 (Emotion): MELD 和 IEMOCAP 强调的是具体心情（如生气、喜悦、悲伤、惊讶），适合做分类任务。

单模态独立标注: CH-SIMS（中文数据集）的一个特点是它为每个模态都单独打了分。这解决了"虽然整体是开心的，但其实文字很悲伤"这种模态冲突的研究问题。