【关于多模态情感识别数据集的报告】

在多模态情感识别(Multimodal Sentiment Analysis, MSA)领域,数据集的选择直接决定了研究的场景和难度。目前主流的数据集主要涵盖**文本(Text)、语音(Audio)和视觉(Vision/Video)**三个模态。

目前学术界最常用的几个核心数据集,并分析了它们之间的区别:

以下是整理后的Markdown格式表格:

数据集对比表

数据集名称 主要模态 数据来源 规模(片段数) 情感标注类型
CMU-MOSI T + A + V YouTube 视频回馈 2,199 情感极性 [-3, +3]
CMU-MOSEI T + A + V YouTube (多领域) 23,453 极性 [-3, +3] + 6类情绪
IEMOCAP T + A + V 实验室录制对话 10,039 9类情绪类别
MELD T + A + V 美剧《老友记》 13,000+ 7类情绪 + 3类极性
CH-SIMS T + A + V 中文影视剧/短视频 2,281 中文单模态+多模态标注

注:

  • 模态说明:T=文本,A=音频,V=视频
  • 规模列中"13,000+"表示该数据集包含超过1.3万条片段
    1. 它们的主要区别是什么?
      我们可以从以下三个维度来拆解它们的差异:

A. 场景真实度 (In-the-wild vs. Lab)

答:野外与实验室

CMU-MOSI/MOSEI 属于"野外"数据集。数据来自 YouTube 上的博主分享,背景噪音多、光线变化大、表达非常自然,是目前测试算法鲁棒性的首选。

IEMOCAP 是典型的"实验室"数据集。由专业演员按照剧本或命题进行表演并录制。虽然不够"野外",但它的信号质量极高,非常适合研究细微的面部表情和语音特征。

B. 交互模式 (Monologue vs. Conversation)

单人演说 (Monologue): MOSI 和 MOSEI 主要是演讲者对着摄像头表达观点。研究重点在于如何融合一个人的三种模态信息。

多人对话 (Conversation): MELD 和 IEMOCAP 是对话式数据集。这要求模型不仅要看当前的模态,还要考虑上下文(Context)。比如在《老友记》(MELD) 中,某人的一句话是幽默还是讽刺,往往取决于前一个人说了什么。

C. 标注的深度与粒度

情感极性 (Sentiment): MOSI/MOSEI 强调的是"好感度",标注是连续的数值(如 -3 到 +3),适合做回归任务。

情绪类别 (Emotion): MELD 和 IEMOCAP 强调的是具体心情(如生气、喜悦、悲伤、惊讶),适合做分类任务。

单模态独立标注: CH-SIMS(中文数据集)的一个特点是它为每个模态都单独打了分。这解决了"虽然整体是开心的,但其实文字很悲伤"这种模态冲突的研究问题。

相关推荐
那个村的李富贵14 小时前
光影魔术师:CANN加速实时图像风格迁移,让每张照片秒变大师画作
人工智能·aigc·cann
腾讯云开发者15 小时前
“痛点”到“通点”!一份让 AI 真正落地产生真金白银的实战指南
人工智能
CareyWYR15 小时前
每周AI论文速递(260202-260206)
人工智能
hopsky16 小时前
大模型生成PPT的技术原理
人工智能
禁默17 小时前
打通 AI 与信号处理的“任督二脉”:Ascend SIP Boost 加速库深度实战
人工智能·信号处理·cann
心疼你的一切17 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
AI绘画哇哒哒17 小时前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行
数据分析能量站17 小时前
Clawdbot(现名Moltbot)-现状分析
人工智能
那个村的李富贵17 小时前
CANN加速下的AIGC“即时翻译”:AI语音克隆与实时变声实战
人工智能·算法·aigc·cann
二十雨辰17 小时前
[python]-AI大模型
开发语言·人工智能·python